• 16 сентября 2017, суббота
  • Москва, Digital October Берсеневская набережная, 6 кор.3

Основы обработки больших объемов данных

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ИП Полковникова Н.А.
2623 дня назад
16 сентября 2017 c 10:00 до 18:00
Москва
Digital October Берсеневская набережная, 6 кор.3

В ходе данного семинара на практических примерах вы узнаете, как применять алгоритмы машинного обучения и анализа данных в контексте реальных бизнес-задач, актуальных здесь и сейчас. По данным SuperJob специалисты по машинному обучению и анализу данных могут рассчитывать на зарплатные предложения в Москве — до 250 тысяч рублей, что заметно выше чем в среднем по ИТ индустрии. Обязательным требованием к слушателям курса является владение языком Python на базовом уровне.

Программа курса

 

  1. Задачи обработки больших объемов данных. Вычислительные кластеры и распределенные вычисления. Обзор технологий: Apache Hadoop, Hive, Pig, Mahout, Spark, HBase, Cassandra. Примеры задач. Технология MapReduce. Apache Hadoop. Архитектура кластера Hadoop. Распределенная файловая система HDFS.
    Навыки:
    Понимание архитектуры Hadoop и основ работы с кластерами.
    Использование распределенных файловых систем. Подготовка данных для задач MapReduce.
    Умение запускать задачи в кластере Hadoop.
  2. Программирование для Hadoop. Разработка программ для Hadoop на Java. Представление данных в Hadoop, пары ключ-значение. Mapper,  Reducer и Driver. Подготовка программ для запуска в кластере Hadoop.
    Разработка программ на Python.
    Навыки:
    Разработка программа MapReduce на Java и Python.
    Понимание ограничений технологии MapReduce в Hadoop.
  3. Обработка структурированных данных. Структурированные и неструктурированные данные. Apache Hive. Представление данных в HDFS в виде таблиц Hive. Язык запросов Hive SQL. Запуск задач Hive в кластере MapReduce.
    Навыки:
    Организация работы со структурированными данными в распределенном кластере.
    Написание запросов Hive SQL.
    Запуск запросов Hive SQL в распределенном кластере.
  4. Apache Spark. Трансформации и действия Spark. Кластер Spark. Взаимодействие Spark и Hadoop. Программирование на Apache Spark. Навыки:
    Разработка программ для Apache Spark на Python.

 

Преподаватель курса Андрей Созыкин (https://www.asozykin.ru/) — преподаватель с 10+ летним стажем, заведующий кафедрой высокопроизводительных компьютерных технологий УрФУ. Организовал магистерскую программу «Анализ Данных» в УрФУ совместно со школой Анализа Данных компании Яндекс. Имеет сертификаты Cloudera Certified Developer for Apache Hadoop и NVIDIA Certified Deep Learning Institute Instructor. Ведет канал на Youtube с учебными курсами по компьютерным наукам (www.youtube.com/channel/UC5gufuYHPS...).  

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше