Очереди сообщений и потоковая обработка

Начальный уровень
Разработка
Учащийся
Azure

С увеличением объема доступных данных выросло и количество непрерывных потоков данных в режиме реального времени, которые требуют обработки. Узнайте о различных системах и методах применения и обработки потоков данных в режиме реального времени.

Цели обучения

В этом модуле вы узнаете, как выполнять следующие задачи:

  • Дадим определение очереди сообщений и вспомним базовую архитектуру
  • Вспомним характеристики и предоставим плюсы и минусы очереди сообщений
  • Разберем базовую архитектуру Apache Kafka
  • Обсудим роли тем и разделов, а также способы обеспечения масштабируемости и отказоустойчивости
  • Обсудим общие требования систем потоковой обработки
  • Вспомним, как развивалась потоковая обработка
  • Рассмотрим основные компоненты Apache Samza
  • Обсудим, как Apache Samza обеспечивает потоковую обработку с отслеживанием состояния
  • Обсудим различия между лямбда- и каппа-архитектурами
  • Обсудим поводы для внедрения очередей сообщений и потоковой обработки в примере с LinkedIn

В партнерстве с доктором Маждом Сакром (Majd Sakr) и Университетом Карнеги — Меллона.

Предварительные требования

  • Понимание темы облачных вычислений, в том числе знакомство с моделями и некоторыми поставщиками облачных служб.
  • Знание технологий, лежащих в основе облачных вычислений.
  • Представление о том, как поставщики облачных служб управляют оплатой и выставлением счетов за использование облака.
  • Знание понятия центров обработки данных и их назначения.
  • Знания в области настройки, поддержки и подготовки центров обработки данных.
  • Представление о том, как подготавливаются и измеряются облачные ресурсы.
  • Знакомство с понятием виртуализации.
  • Знание различных типов виртуализации.
  • Представление о виртуализации ЦП.
  • Представление о виртуализации памяти.
  • Представление о виртуализации ввода-вывода.
  • Знания различных типов данных и об их хранении
  • Знакомство с распределенными файловыми системами и принципами их работы
  • Знакомство с базами данных NoSQL и хранилищем объектов, а также с принципами их работы
  • Представление о том, что такое распределенное программирование и почему оно подходит для облачной среды
  • Представление о MapReduce и о том, каким образом эта модель позволяет выполнять вычисления с большими объемами данных
  • Представление о Spark и отличии этой платформы от MapReduce
  • Представление о GraphLab и отличии этой платформы от MapReduce и Spark