Utföra avancerade datatransformeringar för direktuppspelning med Apache Spark och Kafka i Azure HDInsight

Medel
Data Engineer
Data Scientist
Azure HDInsight

I den här modulen får du lära dig hur du skapar pipelines och program för strömmande dataanalys i realtid i molnet med hjälp av Azure HDInsight med Apache Kafka och Apache Spark.

Utbildningsmål

I slutet av den här modulen förstår du:

  • När du ska använda Apache Spark och Kafka med HDInsight.
  • Spark Structured Streaming.
  • Arkitekturen för en Kafka- och Spark-lösning.
  • Etablera HDInsight, skapa en Kafka-producent och strömma Kafka-data till en Jupyter-notebook-fil.
  • Så här replikerar du data till ett sekundärt kluster.

Förutsättningar

Följande krav bör vara uppfyllda:

  • Logga in på Azure-portalen.
  • Förstå Alternativen för Azure-lagring.
  • Förstå azure-beräkningsalternativen.
  • Skapa och konfigurera ett HDInsight-kluster i Azure-portalen.