Een Jupyter Notebook openen in HDInsight Spark-cluster

Voltooid

Zodra het HDInsight Spark-cluster is gemaakt, kunt u interactieve Spark SQL-query's of -taken uitvoeren op een Apache Spark-cluster in Azure HDInsight. Hiervoor moet u eerst een notebook maken. Een notebook is een interactieve editor waarmee Data-engineer s en Datawetenschapper s een reeks talen kunnen gebruiken om met gegevens te communiceren. Dit kan python, SQL, Scala en andere talen zijn. HDInsight ondersteunt Jupyter, Zeppelin en Livy om te communiceren met gegevens. Het interactieniveau is afhankelijk van de workload die u beheert.

Apache Spark in HDInsight ondersteunt de volgende workloads:

Interactieve gegevensanalyse en BI

U kunt een notebook gebruiken om ongestructureerde/semi-gestructureerde gegevens op te nemen en vervolgens een schema in het notebook te definiƫren. Vervolgens kunt u het schema gebruiken om een model te maken in hulpprogramma's zoals Power BI waarmee zakelijke gebruikers gegevensanalyses kunnen uitvoeren op de gegevens in het notebook

Machine Learning in Spark

U kunt een notebook gebruiken om te werken met MLlib (een Machine Learning-bibliotheek die op Spark is gebouwd) om machine learning-toepassingen te maken

Streaming en realtime gegevensanalyse in Spark

Spark-clusters in HDInsight bieden uitgebreide ondersteuning voor het bouwen van realtime analyseoplossingen. Spark omvat al connectors om gegevens op te halen uit diverse bronnen, zoals Kafka-, Flume-, Twitter-, ZeroMQ- en TCP-sockets, en HDInsight Spark voegt eersteklas ondersteuning toe voor het ophalen van gegevens uit Azure Event Hubs.

Een Jupyter-notebook maken

Gebruik de volgende stappen om een Jupyter-notebook te maken in Azure Portal.

  1. Selecteer Jupyter Notebook in de portal in de sectie Clusterdashboards. Als u hierom wordt gevraagd, voert u de aanmeldingsreferenties voor het cluster in.

    Selecting your Jupyter Notebook in the Azure portal

  2. Selecteer Nieuw > PySpark om een notebook te maken.

    A screenshot of a Jupyter Notebook

  3. Er wordt een nieuw notitieblok gemaakt en geopend met de naam NaamLoos (Naamloos.pynb) waarmee u taken kunt maken, query's uitvoert