Data Warehousing und Analysen

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL-Datenbank
Azure Table Storage

In diesem Beispielszenario wird eine Datenpipeline veranschaulicht, die große Datenmengen aus mehreren Quellen in eine einheitliche Analyseplattform in Azure integriert. Dieses spezielle Szenario basiert zwar auf einer Lösung für Vertrieb und Marketing, die Entwurfsmuster sind jedoch für viele Branchen relevant, in denen erweiterte Analysen von umfangreichen Datasets benötigt werden. Hierzu zählen beispielsweise E-Commerce, Einzelhandel und Gesundheitswesen.

Aufbau

Architecture for a data warehousing and analysis scenario in Azure

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Die Daten durchlaufen die Lösung wie folgt:

  1. Aktualisierungen der einzelnen Datenquellen werden in regelmäßigen Abständen in einen Stagingbereich in Azure Data Lake Storage exportiert.
  2. Azure Data Factory lädt die Daten inkrementell aus Azure Data Lake Storage in Stagingtabellen in Azure Synapse Analytics. Dabei werden die Daten bereinigt und transformiert. PolyBase kann den Prozess für umfangreiche Datasets parallelisieren.
  3. Nachdem ein neuer Datenbatch in das Warehouse geladen wurde, wird ein zuvor erstelltes Azure Analysis Services-Tabellenmodell aktualisiert. Dieses Semantikmodell vereinfacht die Analyse von Geschäftsdaten und -beziehungen.
  4. Business Analysts verwenden Microsoft Power BI, um Warehouse-Daten unter Verwendung des Analysis Services-Semantikmodells zu analysieren.

Komponenten

Das Unternehmen verfügt über Datenquellen auf vielen verschiedenen Plattformen:

  • SQL Server (lokal)
  • Oracle (lokal)
  • Azure SQL-Datenbank
  • Azure Table Storage
  • Azure Cosmos DB

Daten werden aus diesen unterschiedlichen Datenquellen unter Verwendung verschiedener Azure-Komponenten geladen:

  • Azure Data Lake Storage wird verwendet, um Quelldaten vor dem Laden in Azure Synapse bereitzustellen.
  • Data Factory orchestriert die Transformation der bereitgestellten Daten in eine allgemeine Struktur in Azure Synapse. Data Factory verwendet PolyBase beim Laden von Daten in Azure Synapse, um den Durchsatz zu maximieren.
  • Azure Synapse ist ein verteiltes System zum Speichern und Analysieren umfangreicher Datasets. Dank MPP (Massive Parallel Processing) eignet sich diese Komponente für Hochleistungsanalysen. In Kombination mit PolyBase kann Azure Synapse Daten mit hoher Geschwindigkeit aus Azure Data Lake Storage laden.
  • Analysis Services bietet ein Semantikmodell für Ihre Daten. Darüber hinaus kann die Komponente die Systemleistung beim Analysieren Ihrer Daten erhöhen.
  • Power BI ist eine Suite aus Business Analytics-Tools zum Analysieren von Daten und Teilen von Einblicken. Power BI kann ein in Analysis Services gespeichertes Semantikmodell oder direkt Azure Synapse abfragen.
  • Microsoft Entra ID authentifiziert Benutzer*innen, die über Power BI eine Verbindung mit dem Analysis Services-Server herstellen. Data Factory kann auch Microsoft Entra ID für die Authentifizierung bei Azure Synapse verwenden – entweder über einen Dienstprinzipal oder über eine verwaltete Identität für Azure-Ressourcen.

Alternativen

Szenariodetails

Das Unternehmen in diesem Beispiel ist im Bereich Vertrieb und Marketing tätig und entwickelt Anreizprogramme. Diese Programme dienen zur Belohnung von Kunden, Lieferanten, Verkäufern und Mitarbeitern. Die Programme sind auf Daten angewiesen, und das Unternehmen möchte mit Azure die per Datenanalyse gewonnenen Erkenntnisse verbessern.

Das Unternehmen benötigt einen modernen Ansatz für die Datenanalyse, um Entscheidungen zur richtigen Zeit und auf der Grundlage der richtigen Daten treffen zu können. Das Unternehmen hat folgende Ziele:

  • Kombinieren verschiedene Arten von Datenquellen in einer Cloudplattform
  • Transformieren von Quelldaten in eine allgemeine Taxonomie und Struktur, um die Daten konsistent zu machen und einfach vergleichen zu können
  • Laden von Daten unter Verwendung eines hochgradig parallelisierten Ansatzes, der Tausende von Anreizprogrammen unterstützt, aber ohne die hohen Kosten für die Bereitstellung und Pflege einer lokalen Infrastruktur
  • Deutliches Beschleunigen der Datenerfassung und -transformation, um sich auf die Analyse der Daten konzentrieren zu können

Mögliche Anwendungsfälle

Dieser Ansatz kann auch für folgende Zwecke verwendet werden:

  • Einrichten eines Data Warehouse als alleingültige Quelle für Ihre Daten
  • Integrieren relationaler Datenquellen in andere unstrukturierte Datasets
  • Verwenden von Semantikmodellen und leistungsstarken Visualisierungstools zur Vereinfachung der Datenanalyse

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Die Technologien in dieser Architektur wurden gewählt, da sie die Skalier- und Verfügbarkeitsanforderungen des Unternehmens erfüllen und das Unternehmen bei der Kostenkontrolle unterstützen.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Sehen Sie sich über den Azure-Preisrechner ein Preisbeispiel für ein Data Warehouse-Szenario an. Passen Sie die Werte an, um zu ermitteln, wie sich Ihre Anforderungen auf die Kosten auswirken.

  • Mit Azure Synapse können Sie Ihre Compute- und Ihre Speicherebene unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
  • Die Kosten für Data Factory basieren auf der Anzahl von Lese-/Schreibvorgängen, Überwachungsvorgängen und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Die Kosten für Ihre Data Factory erhöhen sich mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge.
  • Analysis Services ist in den Tarifen „Developer“, „Basic“ und „Standard“ erhältlich. Die Preise der Instanzen basieren auf QPUs (Query Processing Units) und auf dem verfügbaren Arbeitsspeicher. Minimieren Sie die Anzahl ausgeführter Abfragen, den Umfang der durch die Abfragen verarbeiteten Daten sowie die Ausführungshäufigkeit dieser Abfragen, um die Kosten gering zu halten.
  • Power BI bietet verschiedene Produktoptionen für unterschiedliche Anforderungen. Power BI Embedded bietet eine Azure-basierte Option zum Einbetten von Power BI-Funktionen in Ihre Anwendungen. Eine Power BI Embedded-Instanz ist im obigen Preisbeispiel enthalten.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte