Расширенное преобразование потоковых данных с помощью Apache Spark и Kafka в Azure HDInsight

Средний уровень
Инженер по анализу и обработке данных
Специалист по обработке и анализу данных
Azure HDInsight

В этом модуле вы узнаете, как создавать конвейеры и приложения аналитики данных в режиме реального времени в облаке с помощью Azure HDInsight с Apache Kafka и Apache Spark.

Цели обучения

В конце этого модуля вы понимаете следующее:

  • Когда следует использовать Apache Spark и Kafka с HDInsight.
  • Структурированная потоковая передача Spark.
  • Архитектура решения Kafka и Spark.
  • Подготовка HDInsight, создание производителя Kafka и потоковая передача данных Kafka в записную книжку Jupyter.
  • Как реплика выполнять реплика данных в дополнительный кластер.

Предварительные требования

Необходимо выполнить следующее требование:

  • Успешно войдите в портал Azure.
  • Сведения о параметрах хранилища Azure.
  • Общие сведения о параметрах вычислений Azure.
  • Создайте и настройте кластер HDInsight в портал Azure.