Большие данные

6 курсов для желающих научиться основам работы с данными

Большие данные
Иллюстрация Ольги Скворцовой

Большие данные, или Big data, — это инструменты, подходы и методы обработки огромных массивов структурированных или неструктурированных данных, при помощи которых эти данные становится возможным использовать для решения конкретных практических задач.

Спрос на специалистов этой сравнительно новой профессии (data scientist) с каждым годом растет, и в ближайшем будущем она, по всей вероятности, станет одной из самых востребованных на рынке. Всенаука подготовила подборку онлайн-курсов, которые помогут вам получить общее представление о науке о больших данных или расширить свои познания в этой области.

Маленький гид по большим данным

  • Кто ведет: ученые НИУ ВШЭ и МФТИ
  • Язык: русский
  • Уровень: начальный

Пожалуй, единственный курс в подборке, который подойдет даже тем, кто считает себя гуманитарием, для получения общего представления о теме. В этом гиде Постнауки, созданном в сотрудничестве с Корпоративным университетом Сбербанка, сжато, но полно рассказывается о том, как развиваются технологии больших данных и машинного обучения.

Из статей и видеороликов этого курса вы узнаете об истории науки о больших данных, появлении искусственного интеллекта и нейронных сетей, о развитии машинного обучения — и о том, какие инструменты big data применяются в настоящий момент. Занятия ведут ученые из НИУ ВШЭ и МФТИ. Закрепить полученные знания поможет тест.

Введение в искусственный интеллект

  • Кто ведет: ученые НИУ ВШЭ
  • Язык: русский
  • Уровень: начальный, средний

Это вводный курс, который познакомит вас с основами науки о данных и с основами машинного обучения, а также с принципами работы искусственного интеллекта. Он будет интересен и полезен как новичкам, которые впервые заинтересовались темой больших данных, так и тем, кто уже знаком с основами анализа данных и программированием.

В этом курсе вы не только получите теоретические знания, но и научитесь применять некоторые методы искусственного интеллекта для решения несложных практических задач. Курс состоит из коротких видеолекций, тестов, расчетных задач и заданий.

Введение в большие данные

  • Кто ведет: ученые Калифорнийского университета в Сан-Диего
  • Язык: английский
  • Уровень: начальный, средний

Этот курс предназначен для тех, кто начинает освоение науки о данных. Вы узнаете, что обусловило наступление эпохи больших данных, и познакомитесь с терминологией, основными понятиями и проблемами приложений и систем, работающих с большими данными. Курс также поможет понять, каким образом большие данные могут применяться на практике, и при желании научиться некоторым конкретным навыкам.

Этика науки о данных

  • Кто ведет: ученые Мичиганского университета
  • Язык: английский
  • Уровень: начальный

Доступ к частной информации неизбежен при сборе и анализе больших данных, и перед специалистами встают этические вопросы защиты приватности и контроля данных, которые предоставляют пользователи. В этом курсе вы познакомитесь с основами этики в целом, с этикой науки о данных, в том числе с понятиями информированного согласия, приватности и анонимности, узнаете, кто обладает правами на данные и какие данные считаются валидными, а также получите этический код специалиста по данным.

Курс состоит из 9 модулей, включающих видеолекции, материалы для самостоятельного изучения, квизы, тесты и разборы кейсов. Будет полезен и для действующих специалистов по большим данным, но специальных знаний для участия не требуется, изучить вопрос сможет любой желающий.

Машинное обучение. Принципы работы и области применения

  • Кто ведет: ученые Сколтеха
  • Язык: русский
  • Уровень: средний

Этот совместный курс Постнауки и Сколтеха рассказывает о математическом моделировании и методах машинного обучения. В основе машинного обучения лежит работа с большими данными, но эту информацию нужно уметь обрабатывать и извлекать из нее самое важное. О том, какие методы и алгоритмы для этого используются, рассказывается в этом курсе.

Курс состоит из тезауруса, в котором разъясняются базовые понятия, и видеолекций. Некоторые части курса доступны и для начинающих, но для большей части материалов нужна базовая подготовка в области математики и/или программирования.

Наука о данных и аналитика больших объемов данных

  • Кто ведет: ученые СПбПУ им. Петра Великого
  • Язык: русский
  • Уровень: продвинутый

Этот курс рассчитан на людей, уже имеющих базовые знания основ программирования (алгоритмы и структуры данных, ООП, паттерны проектирования), принципов проектирования СУБД, знания одного или нескольких языков программирования (Java, Perl, Python и т.д.) и понимание основ статистической обработки данных.

Вы  познакомитесь с понятием жизненного цикла аналитики данных, технологиями и средствами распределенной обработки и хранения данных, базовыми методами аналитики больших объемов данных и техниками визуализации данных, а также научитесь применять на практике типовые технологии и средства аналитики данных, такие как MapReduce, Hadoop, NoSQL, язык R.

Подготовила Валерия Лапшина