Книга посвящена практическим методам анализа больших объемов данных с использованием языка Python и фреймворка Spark, она знакомит с моделью программирования Spark и основами системы с открытым исходным кодом PySpark. Каждая глава описывает отдельный аспект анализа данных, показаны основы обработки данных в PySpark и Python на примере очистки данных, подробно освещается машинное обучение с помощью Spark. Книга поможет читателю понять, как устроен и работает весь конвейер PySpark для комплексной аналитики больших наборов данных: от создания и оценки моделей до очистки, предварительной обработки и исследования данных с особым акцентом на производственные приложения. Отдельные главы посвящены обработке изображений и библиотеке Spark NLP.
Файлы cookie, необходимые для корректной работы сайта, всегда включены. Другие файлы cookie можно настраивать:
1) Технические файлы cookies - Всегда разрешено
Эти файлы cookie необходимы для того, чтобы вы могли пользоваться сайтом и его функциями. Их нельзя отключить. Они устанавливаются в ответ на ваши запросы, такие как выбор города, заполнение фильтров, заполнение форм и т.д.
2) Аналитические файлы cookies
Эти файлы cookie собирают информацию, чтобы помочь нам понять, как используется наш сайт и чтобы помочь нам настроить наш сайт для вас.