Основы обработки больших объемов данных / События на TimePad.ru

Рекомендуемые события

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ИП Полковникова Н.А.

Связаться с организатором

2852 дня назад

16 сентября 2017 c 10:00 до 18:00

Москва

Digital October Берсеневская набережная, 6 кор.3

В ходе данного семинара на практических примерах вы узнаете, как применять алгоритмы машинного обучения и анализа данных в контексте реальных бизнес-задач, актуальных здесь и сейчас. По данным SuperJob специалисты по машинному обучению и анализу данных могут рассчитывать на зарплатные предложения в Москве — до 250 тысяч рублей, что заметно выше чем в среднем по ИТ индустрии. Обязательным требованием к слушателям курса является владение языком Python на базовом уровне.

Восстановить билет

Вернуть билет

Программа курса

Задачи обработки больших объемов данных. Вычислительные кластеры и распределенные вычисления. Обзор технологий: Apache Hadoop, Hive, Pig, Mahout, Spark, HBase, Cassandra. Примеры задач. Технология MapReduce. Apache Hadoop. Архитектура кластера Hadoop. Распределенная файловая система HDFS.
Навыки:
Понимание архитектуры Hadoop и основ работы с кластерами.
Использование распределенных файловых систем. Подготовка данных для задач MapReduce.
Умение запускать задачи в кластере Hadoop.
Программирование для Hadoop. Разработка программ для Hadoop на Java. Представление данных в Hadoop, пары ключ-значение. Mapper, Reducer и Driver. Подготовка программ для запуска в кластере Hadoop.
Разработка программ на Python.
Навыки:
Разработка программа MapReduce на Java и Python.
Понимание ограничений технологии MapReduce в Hadoop.
Обработка структурированных данных. Структурированные и неструктурированные данные. Apache Hive. Представление данных в HDFS в виде таблиц Hive. Язык запросов Hive SQL. Запуск задач Hive в кластере MapReduce.
Навыки:
Организация работы со структурированными данными в распределенном кластере.
Написание запросов Hive SQL.
Запуск запросов Hive SQL в распределенном кластере.
Apache Spark. Трансформации и действия Spark. Кластер Spark. Взаимодействие Spark и Hadoop. Программирование на Apache Spark. Навыки:
Разработка программ для Apache Spark на Python.

Преподаватель курса Андрей Созыкин (https://www.asozykin.ru/) — преподаватель с 10+ летним стажем, заведующий кафедрой высокопроизводительных компьютерных технологий УрФУ. Организовал магистерскую программу «Анализ Данных» в УрФУ совместно со школой Анализа Данных компании Яндекс. Имеет сертификаты Cloudera Certified Developer for Apache Hadoop и NVIDIA Certified Deep Learning Institute Instructor. Ведет канал на Youtube с учебными курсами по компьютерным наукам (www.youtube.com/channel/UC5gufuYHPS...).

Получение и восстановление электронных билетов

Возврат билета

Нужна помощь?

Как оплатить билет?

Как получить билет?

Как вернуть билет?

Задать вопрос организатору

Связаться с организатором

Основы обработки больших объемов данных

Рекомендуемые события

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!