Wählen Sie eine Technologie zur Datenanalyse und Berichterstellung in Azure

Ziel der meisten Big Data-Lösungen ist es, über Analysen und Berichte Einblicke in die Daten zu bieten. Beispiele hierfür sind vorkonfigurierte Berichte und Visualisierungen oder die interaktive Datenuntersuchung.

Welche Möglichkeiten stehen Ihnen bei der Wahl der Technologie für die Datenanalyse zur Verfügung?

Je nach Ihren Anforderungen haben Sie für die Analyse, Visualisierung und Berichterstellung in Azure mehrere Optionen:

Power BI

Power BI ist eine Suite mit Business Analytics-Tools. Sie ermöglicht die Herstellung einer Verbindung mit Hunderten von Datenquellen und kann für Ad-hoc-Analysen verwendet werden. Die derzeit verfügbaren Datenquellen sind in dieser Liste aufgeführt. Verwenden Sie Power BI Embedded, um Power BI in Ihre eigenen Anwendungen zu integrieren, ohne dass eine zusätzliche Lizenzierung erforderlich ist.

Organisationen können Power BI verwenden, um Berichte zu erstellen und für die gesamte Organisation zu veröffentlichen. Jeder kann personalisierte Dashboards mit Integration von Governance und Sicherheit erstellen. Für Power BI wird Azure Active Directory (Azure AD) zum Authentifizieren von Benutzern eingesetzt, die sich am Power BI-Dienst anmelden. Die Power BI-Anmeldeinformationen werden jeweils verwendet, wenn ein Benutzer versucht, auf Ressourcen zuzugreifen, für die eine Authentifizierung erforderlich ist.

Jupyter Notebook

Jupyter-Notebooks verfügen über eine browserbasierte Shell, mit deren Hilfe Data Scientists Notebook-Dateien erstellen können, die Python-, Scala- oder R-Code und Markdowntext enthalten. Dies ist eine effektive Möglichkeit zur Kollaboration, indem der Code und Ergebnisse in einem zentralen Dokument freigegeben und dokumentiert werden.

Die meisten Varianten von HDInsight-Clustern, z.B. Spark oder Hadoop, sind mit Jupyter-Notebooks vorkonfiguriert, um die Interaktion mit Daten und die Übermittlung von Aufträgen zur Verarbeitung zu ermöglichen. Je nach verwendetem Typ des HDInsight-Clusters werden einer oder mehrere Kernel für die Interpretation und Ausführung Ihres Codes bereitgestellt. Spark-Cluster in HDInsight verfügen beispielsweise über Spark-bezogene Kernel, aus denen Sie wählen können, um Python- oder Scala-Code mit dem Spark-Modul auszuführen.

Jupyter-Notebooks sind eine hervorragende Umgebung zum Analysieren, Visualisieren und Verarbeiten Ihrer Daten vor der Erstellung von anspruchsvolleren Visualisierungen mit einem BI- oder Berichterstellungstool wie Power BI.

Zeppelin-Notebooks

Zeppelin-Notebooks sind eine weitere Option für eine browserbasierte Shell, wobei die Funktionalität mit Jupyter vergleichbar ist. Für einige HDInsight-Cluster sind Zeppelin-Notebooks bereits vorkonfiguriert. Wenn Sie aber einen Cluster vom Typ HDInsight Interactive Query (Hive LLAP) verwenden, ist Zeppelin derzeit das einzige Notebook, das Sie zum Ausführen von interaktiven Hive-Abfragen einsetzen können. Falls Sie einen in die Domäne eingebundenen HDInsight-Cluster nutzen, sind Zeppelin-Notebooks außerdem der einzige Typ, bei dem Sie unterschiedliche Benutzeranmeldungen zuweisen können, um den Zugriff auf Notebooks und die zugrunde liegenden Hive-Tabellen zu steuern.

Microsoft Azure Notebooks

Azure Notebooks ist ein auf Jupyter-Notebooks basierender Onlinedienst, mit dem Data Scientists Jupyter-Notebooks in cloudbasierten Bibliotheken erstellen, ausführen und freigeben können. Azure Notebooks verfügt über Ausführungsumgebungen für Python 2, Python 3, F# und R und mehrere Diagrammerstellungsbibliotheken zum Visualisieren Ihrer Daten, z.B. ggplot, matplotlib, bokeh und seaborn.

Im Gegensatz zu Jupyter-Notebooks, die in einem HDInsight-Cluster ausgeführt werden und mit dem Standardspeicherkonto des Clusters verbunden sind, werden bei Azure Notebooks keine Daten bereitgestellt. Sie müssen auf unterschiedliche Arten Daten laden, z.B. Daten von einer Onlinequelle herunterladen, mit Azure-Blobs oder Table Storage interagieren, eine Verbindung mit einer SQL-Datenbank herstellen oder Daten mit dem Kopier-Assistenten für Azure Data Factory laden.

Hauptvorteile:

  • Kostenloser Dienst: Sie benötigen kein Azure-Abonnement.
  • Keine lokale Installation von Jupyter und den unterstützenden R- oder Python-Distributionen erforderlich: Ein Browser genügt.
  • Verwalten Sie Ihre eigenen Onlinebibliotheken, und greifen Sie von einem beliebigen Gerät aus darauf zu.
  • Geben Sie Ihre Notebooks für Projektmitarbeiter frei.

Überlegungen:

  • Die Notebooks stehen offline nicht zur Verfügung.
  • Die eingeschränkten Verarbeitungsfunktionen des kostenlosen Notebookdiensts reichen für umfangreiche oder komplexe Modelle unter Umständen nicht aus.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

  • Müssen Sie eine Verbindung mit einer großen Zahl von Datenquellen herstellen und einen zentralen Ort zur Erstellung von Berichten für Daten bereitstellen, die in Ihrer gesamten Domäne verteilt sind? Wenn ja, sollten Sie eine Option wählen, mit der Sie eine Verbindung mit Hunderten von Datenquellen herstellen können.

  • Möchten Sie dynamische Visualisierungen in eine externe Website oder Anwendung einbetten? Wenn ja, sollten Sie eine Option wählen, die über Funktionen für das Einbetten verfügt.

  • Möchten Sie Ihre Visualisierungen und Berichte im Offlinezustand entwerfen? Wenn ja, sollten Sie eine Option mit Offlinefunktionen wählen.

  • Benötigen Sie eine hohe Verarbeitungsleistung, um große oder komplexe KI-Modelle zu trainieren oder mit sehr großen Datasets zu arbeiten? Wenn ja, sollten Sie eine Option wählen, bei der eine Verbindung mit einem Big Data-Cluster hergestellt werden kann.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Funktion Power BI Jupyter Notebook Zeppelin-Notebooks Microsoft Azure Notebooks
Verbindungsherstellung mit einem Big Data-Cluster zur erweiterten Verarbeitung Ja Ja Ja Nein
Verwalteter Dienst Ja Ja1 Ja1 Ja
Verbindungsherstellung mit Hunderten von Datenquellen Ja Nein Nein Nein
Offlinefunktionen Ja2 Nein Nein Nein
Einbettung von Funktionen Ja Nein Nein Nein
Automatische Datenaktualisierung Ja Nein Nein Nein
Zugriff auf eine große Zahl von Open-Source-Paketen Nein Ja3 Ja3 Ja 4
Optionen für Datentransformation/-bereinigung Power Query, R 40 Sprachen, z.B. Python, R, Julia und Scala 20+ Interpreter, z.B. Python, JDBC und R Python, F#, R
Preise Kostenlos für Power BI Desktop (Erstellung), siehe Hostingoptionen unter Preise Kostenlos Kostenlos Kostenlos
Kollaboration mehrerer Benutzer Ja Ja (per Freigabe oder über einen Mehrbenutzer-Server wie JupyterHub) Ja Ja (per Freigabe)

[1] Bei Verwendung als Teil eines verwalteten HDInsight-Clusters.

[2] Bei Verwendung von Power BI Desktop.

[2] Sie können das Maven-Repository nach Paketen durchsuchen, die von der Community bereitgestellt wurden.

[3] Python-Pakete können entweder per pip oder conda installiert werden. R-Pakete können über CRAN oder GitHub installiert werden. Pakete in F# können über „nuget.org“ mit dem Paket-Abhängigkeits-Manager installiert werden.