Wählen Sie eine Technologie zur Datenanalyse und Berichterstellung in Azure

Ziel der meisten Big Data-Lösungen ist es, über Analysen und Berichte Einblicke in die Daten zu bieten. Beispiele hierfür sind vorkonfigurierte Berichte und Visualisierungen oder die interaktive Datenuntersuchung.

Welche Möglichkeiten stehen Ihnen bei der Wahl der Technologie für die Datenanalyse zur Verfügung?

Je nach Ihren Anforderungen haben Sie für die Analyse, Visualisierung und Berichterstellung in Azure mehrere Optionen:

Power BI

Power BI ist eine Suite mit Business Analytics-Tools. Sie ermöglicht die Herstellung einer Verbindung mit Hunderten von Datenquellen und kann für Ad-hoc-Analysen verwendet werden. Die derzeit verfügbaren Datenquellen sind in dieser Liste aufgeführt. Verwenden Sie Power BI Embedded, um Power BI in Ihre eigenen Anwendungen zu integrieren, ohne dass eine zusätzliche Lizenzierung erforderlich ist.

Organisationen können Power BI verwenden, um Berichte zu erstellen und für die gesamte Organisation zu veröffentlichen. Jeder kann personalisierte Dashboards mit Integration von Governance und Sicherheit erstellen. Für Power BI wird Microsoft Entra ID zum Authentifizieren von Benutzer*innen eingesetzt, die sich beim Power BI-Dienst anmelden. Die Power BI-Anmeldeinformationen werden jeweils verwendet, wenn Benutzer*innen versuchen, auf Ressourcen zuzugreifen, für die eine Authentifizierung erforderlich ist.

Jupyter Notebook

Jupyter-Notebooks verfügen über eine browserbasierte Shell, mit deren Hilfe Data Scientists Notebook-Dateien erstellen können, die Python-, Scala- oder R-Code und Markdowntext enthalten. Dies ist eine effektive Möglichkeit zur Kollaboration, indem der Code und Ergebnisse in einem zentralen Dokument freigegeben und dokumentiert werden.

Die meisten Varianten von HDInsight-Clustern, z.B. Spark oder Hadoop, sind mit Jupyter-Notebooks vorkonfiguriert, um die Interaktion mit Daten und die Übermittlung von Aufträgen zur Verarbeitung zu ermöglichen. Je nach verwendetem Typ des HDInsight-Clusters werden einer oder mehrere Kernel für die Interpretation und Ausführung Ihres Codes bereitgestellt. Spark-Cluster in HDInsight verfügen beispielsweise über Spark-bezogene Kernel, aus denen Sie wählen können, um Python- oder Scala-Code mit dem Spark-Modul auszuführen.

Jupyter-Notebooks sind eine hervorragende Umgebung zum Analysieren, Visualisieren und Verarbeiten Ihrer Daten vor der Erstellung von anspruchsvolleren Visualisierungen mit einem BI- oder Berichterstellungstool wie Power BI.

Zeppelin-Notebooks

Zeppelin-Notebooks sind eine weitere Option für eine browserbasierte Shell, wobei die Funktionalität mit Jupyter vergleichbar ist. Für einige HDInsight-Cluster sind Zeppelin-Notebooks bereits vorkonfiguriert. Wenn Sie aber einen Cluster vom Typ HDInsight Interactive Query (Hive LLAP) verwenden, ist Zeppelin derzeit das einzige Notebook, das Sie zum Ausführen von interaktiven Hive-Abfragen einsetzen können. Falls Sie einen in die Domäne eingebundenen HDInsight-Cluster nutzen, sind Zeppelin-Notebooks außerdem der einzige Typ, bei dem Sie unterschiedliche Benutzeranmeldungen zuweisen können, um den Zugriff auf Notebooks und die zugrunde liegenden Hive-Tabellen zu steuern.

Jupyter Notebooks in VS Code

VS Code ist ein kostenloser Code-Editor und eine Entwicklungsplattform, die Sie lokal oder remote verwenden können. In Kombination mit der Jupyter-Erweiterung bietet sie eine vollständige Umgebung für die Jupyter-Entwicklung, die mit zusätzlichen Spracherweiterungen verbessert werden kann. Wenn Sie sich eine erstklassige, kostenlose Jupyter-Erfahrung wünschen, mit der Möglichkeit die Computeleistung Ihrer Wahl zu nutzen, ist dies eine hervorragende Option. Mithilfe von VS Code können Sie Notebooks für Remoterepositorys und Container entwickeln und ausführen. Um den Übergang von Azure Notebooks zu vereinfachen, haben wir das Containerimage verfügbar gemacht, damit es auch mit VS Code verwendet werden kann.

Jupyter (ehemals IPython Notebook) ist ein Open-Source-Projekt, mit dem Sie problemlos Markdowntext und ausführbaren Python-Quellcode auf einem Zeichenbereich kombinieren können, der als Notebook bezeichnet wird. Visual Studio Code unterstützt die Verwendung von Jupyter Notebooks nativ und über Python-Codedateien.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

  • Müssen Sie eine Verbindung mit einer großen Zahl von Datenquellen herstellen und einen zentralen Ort zur Erstellung von Berichten für Daten bereitstellen, die in Ihrer gesamten Domäne verteilt sind? Wenn ja, sollten Sie eine Option wählen, mit der Sie eine Verbindung mit Hunderten von Datenquellen herstellen können.

  • Möchten Sie dynamische Visualisierungen in eine externe Website oder Anwendung einbetten? Wenn ja, sollten Sie eine Option wählen, die über Funktionen für das Einbetten verfügt.

  • Möchten Sie Ihre Visualisierungen und Berichte im Offlinezustand entwerfen? Wenn ja, sollten Sie eine Option mit Offlinefunktionen wählen.

  • Benötigen Sie eine hohe Verarbeitungsleistung, um große oder komplexe KI-Modelle zu trainieren oder mit sehr großen Datasets zu arbeiten? Wenn ja, sollten Sie eine Option wählen, bei der eine Verbindung mit einem Big Data-Cluster hergestellt werden kann.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Funktion Power BI Jupyter Notebook Zeppelin-Notebooks Jupyter Notebooks in VS Code
Verbindungsherstellung mit einem Big Data-Cluster zur erweiterten Verarbeitung Ja Ja Ja Nein
Verwalteter Dienst Ja Ja1 Ja1 Ja
Verbindungsherstellung mit Hunderten von Datenquellen Ja Nr. Nr. Nein
Offlinefunktionen Ja2 Nein Nr. Nein
Einbettung von Funktionen Ja Nr. Nr. Nein
Automatische Datenaktualisierung Ja Nr. Nr. Nein
Zugriff auf eine große Zahl von Open-Source-Paketen Nein Ja 3 Ja3 Ja 4
Optionen für Datentransformation/-bereinigung Power Query, R 40 Sprachen, z.B. Python, R, Julia und Scala 20+ Interpreter, z.B. Python, JDBC und R Python, F#, R
Preise Kostenlos für Power BI Desktop (Erstellung), siehe Hostingoptionen unter Preise Kostenlos Kostenlos Kostenlos
Kollaboration mehrerer Benutzer Ja Ja (per Freigabe oder über einen Mehrbenutzer-Server wie JupyterHub) Ja Ja (per Freigabe)

[1] Bei Verwendung als Teil eines verwalteten HDInsight-Clusters.

[2] Bei Verwendung von Power BI Desktop.

[2] Sie können das Maven-Repository nach Paketen durchsuchen, die von der Community bereitgestellt wurden.

[3] Python-Pakete können entweder per pip oder conda installiert werden. R-Pakete können über CRAN oder GitHub installiert werden. Pakete in F# können über „nuget.org“ mit dem Paket-Abhängigkeits-Manager installiert werden.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte