Bearbeiten

Modernes Data Warehouse für kleine und mittlere Unternehmen

Azure Data Lake
Azure SQL-Datenbank
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

Diese Beispielworkload zeigt mehrere Möglichkeiten, wie kleine und mittelgroße Unternehmen (Small and Medium Businesses, SMBs) Legacydatenspeicher modernisieren und Big Data-Tools und -Funktionen erkunden können, ohne die aktuellen Budgets und Skillsets zu überlasten. Diese End-to-End-Lösungen für Azure Data Warehousing lassen sich problemlos in Tools wie Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics und andere Microsoft-Technologien integrieren.

Aufbau

Diagram that shows how SMBs can modernize legacy data stores.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Legacy-Data Warehouses von SMBs können mehrere Datentypen enthalten:

  • Unstrukturierte Daten wie Dokumente und Grafiken.
  • Teilweise strukturierte Daten wie Protokolle, CSVs, JSON- und XML-Dateien.
  • Strukturierte relationale Daten, einschließlich Datenbanken, die gespeicherte Prozeduren für ETL-/ELT-Aktivitäten (Extrahieren, Transformieren und Laden/Extrahieren, Laden und Transformieren) verwenden

Datenfluss

Der folgende Datenfluss veranschaulicht die Erfassung des ausgewählten Datentyps:

  1. Azure Synapse Analytics-Pipelines erfassen die Legacy-Data Warehouses in Azure.

    • Die Pipelines orchestrieren den Fluss migrierter oder teilweise umgestalteter Legacy-Datenbanken und SSIS-Pakete in Azure SQL-Datenbank. Dieser Lift & Shift-Ansatz lässt sich am schnellsten implementieren und bietet einen reibungslosen Übergang von einer lokalen SQL-Lösung zu einer letzendlichen Azure Platform-as-a-Service (PaaS). Sie können Datenbanken nach dem Lift & Shift inkrementell modernisieren.

    • Die Pipelines können auch unstrukturierte, teilweise strukturierte und strukturierte Daten zur zentralisierten Speicherung und Analyse mit anderen Quellen an Azure Data Lake Storage übergeben. Verwenden Sie diesen Ansatz, wenn das Fusionieren von Daten einen größeren geschäftlichen Vorteil bietet, als die Daten einfach auf eine andere Plattform zu portieren.

  2. Microsoft Dynamics-Datenquellen können verwendet werden, um zentralisierte BI-Dashboards auf erweiterten Datasets mithilfe der serverlosen Synapse-Analysetools zu erstellen. Sie können die fusionierten, verarbeiteten Daten zur weiteren Analyse wieder zurück in Dynamics und Power BI übertragen.

  3. Echtzeitdaten aus Streamingquellen können ebenfalls über Azure Event Hubs in das System gelangen. Für Kunden mit der Erfordernis von Echtzeitdashboards kann Azure Stream Analytics diese Daten sofort analysieren.

  4. Die Daten können auch zur weiteren Analyse, Speicherung und Berichterstellung in den zentralisierten Data Lake gelangen.

  5. Serverlose Analysetools sind im Azure Synapse Analytics-Arbeitsbereich verfügbar. Diese Tools verwenden serverlose SQL-Pool- oder Apache Spark-Computefunktionen, um die Daten in Data Lake Storage Gen2 zu verarbeiten. Serverlose Pools sind bei Bedarf verfügbar und erfordern keine bereitgestellten Ressourcen.

    Serverlose Pools eignen sich ideal für:

    • Ad-hoc-Data Science-Untersuchungen im T-SQL-Format.
    • Frühe Prototyperstellung für Data Warehouse-Entitäten.
    • Definieren von Ansichten, die Consumer z. B. in Power BI für Szenarien verwenden können, die Leistungsverzögerungen tolerieren können.

Azure Synapse ist eng in potenzielle Consumer Ihrer fusionierten Datasets integriert, z. B. Azure Machine Learning. Andere Consumer können Power Apps, Azure Logic Apps, Azure Functions-Apps und Azure App Service-Web-Apps einschließen.

Komponenten

  • Azure Synapse Analytics ist ein Analysedienst, der Datenintegration, Data Warehousing für Unternehmen mit Big Data-Analysen vereint. Der Inhalt dieser Lösung:

  • Azure SQL-Datenbank ist ein intelligenter, skalierbarer und relationaler Datenbankdienst, der für die Cloud entwickelt wurde. In dieser Lösung enthält die SQL-Datenbank das Data Warehouse des Unternehmens und führt ETL/ELT-Aktivitäten aus, die gespeicherte Prozeduren verwenden.

  • Bei Azure Event Hubs handelt es sich um eine Echtzeit-Datenstreamingplattform und einen Ereigniserfassungsdienst. Event Hubs können Daten von überall erfassen und nahtlos in Azure-Datendienste integrieren.

  • Azure Stream Analytics ist ein serverloser Dienst zur Echtzeitanalyse von Streamingdaten. Stream Analytics bietet schnelle, elastische Skalierbarkeit, Zuverlässigkeit und Wiederherstellung auf Unternehmensniveau sowie integrierte Machine Learning-Funktionen.

  • Azure Machine Learning ist ein Toolset für die Entwicklung von Data Science-Modellen und die Lebenszyklusverwaltung. Machine Learning ist ein Beispiel für die Azure- und Microsoft-Dienste, die fusionierte, verarbeitete Daten aus Data Lake Storage Gen2 nutzen können.

Alternativen

  • Azure IoT Hub könnte Event Hubs ersetzen oder ergänzen. Welche Lösung Sie auswählen, hängt von der Quelle Ihrer Streamingdaten ab und davon, ob Sie Funktionen zum Klonen und bidirektionale Kommunikation mit den Berichterstellungsgeräten benötigen.

  • Sie können Azure Data Factory für die Datenintegration anstelle von Azure Synapse-Pipelines verwenden. Die Wahl hängt von verschiedenen Faktoren ab:

    • Azure Synapse-Pipelines halten den Lösungsentwurf einfacher und ermöglichen die Zusammenarbeit innerhalb eines einzelnen Azure Synapse-Arbeitsbereichs.
    • Azure Synapse-Pipelines unterstützen kein erneutes Hosten von SSIS-Paketen, das in Azure Data Factory verfügbar ist.
    • Synapse Monitor Hub überwacht Azure Synapse-Pipelines, während Azure Monitor Data Factory überwachen kann.

    Weitere Informationen und einen Featurevergleich zwischen Azure Synapse-Pipelines und Data Factory finden Sie unter Datenintegration in Azure Synapse Analytics im Vergleich zu Azure Data Factory.

  • Sie können dedizierte Synapse Analytics SQL-Pools anstelle der SQL-Datenbank zum Speichern von Unternehmensdaten verwenden. Prüfen Sie die Anwendungsfälle und Überlegungen in diesem Artikel und die zugehörigen Ressourcen, um eine Entscheidung zu treffen.

Szenariodetails

Kleine und mittlere Unternehmen (SMBs) stehen bei der Modernisierung ihrer lokalen Data Warehouses für die Cloud vor einer Wahl. Sie können Big Data-Tools für zukünftige Erweiterbarkeit übernehmen oder herkömmliche, SQL-basierte Lösungen beibehalten, um Kosteneffizienz, einfache Wartung und einen reibungslosen Übergang zu gewährleisten.

Ein Hybridansatz kombiniert jedoch die einfache Migration des vorhandenen Datenbestands mit der Möglichkeit, Big Data-Tools und -Prozesse für einige Anwendungsfälle hinzuzufügen. SQL-basierte Datenquellen können weiterhin in der Cloud ausgeführt werden und nach Bedarf weiter modernisiert werden.

Diese Beispielworkload zeigt mehrere Möglichkeiten, wie SMBs Legacy-Datenspeicher modernisieren und Big Data-Tools und -Funktionen erkunden können, ohne die aktuellen Budgets und Skillsets zu überlasten. Diese End-to-End-Lösungen für Azure Data Warehousing lassen sich problemlos in Azure- und Microsoft-Dienste und -Tools wie Azure Machine Learning, Microsoft Power Platform und Microsoft Dynamics integrieren.

Mögliche Anwendungsfälle

Von dieser Workload können mehrere Szenarien profitieren:

  • Die Migration eines herkömmlichen, lokalen, relationalen Data Warehouses, das kleiner als 1 TB ist und in großem Umfang SQL Server Integration Services-Pakete (SSIS) verwendet, um gespeicherte Prozeduren zu orchestrieren.

  • Das Meshing vorhandener Dynamics- oder Power Platform Dataverse-Daten mit Azure Data Lake-Quellen in Batches und Echtzeit.

  • Verwenden innovativer Methoden für die Interaktion mit zentralisierten Data Lake Storage Gen2-Daten. Zu den Methoden gehören serverlose Analyse, Knowledge Mining, Datenfusion zwischen Domänen und das Erkunden von Endbenutzerdaten.

  • Einrichten von E-Commerce-Unternehmen für die Einführung eines Data Warehouse zur Optimierung ihrer Vorgänge.

Diese Lösung wird für Folgendes nicht empfohlen:

  • Greenfield-Bereitstellung von Data Warehouses, deren geschätzte Größe innerhalb eines Jahres 1 TB übersteigen wird

  • Migrieren lokaler Data Warehouses, die größer als 1 TB sind oder voraussichtlich innerhalb eines Jahres auf diese Größe anwachsen werden

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Die folgenden Überlegungen gelten für dieses Szenario.

Verfügbarkeit

SQL-Datenbank ist ein PaaS-Dienst, der Ihre Anforderungen an Hochverfügbarkeit und Notfallwiederherstellung erfüllen kann. Achten Sie darauf, die SKU zu wählen, die Ihre Anforderungen erfüllt. Eine Anleitung finden Sie unter Hochverfügbarkeit für Azure SQL-Datenbank.

Operations

SQL-Datenbank verwendet SQL Server Management Studio (SSMS), um Legacy-Artefakte wie gespeicherte Prozeduren zu entwickeln und zu verwalten.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Sehen Sie sich im Azure-Preisrechner ein Preisbeispiel für ein SMB-Data Warehouse-Szenario an. Passen Sie die Werte an, um zu ermitteln, wie sich Ihre Anforderungen auf die Kosten auswirken.

  • Die Kosten von SQL-Datenbank basieren auf den ausgewählten Compute- und Dienstebenen sowie auf der Anzahl von virtuellen Kernen und Datenbanktransaktionseinheiten (DTUs). Das Beispiel zeigt eine Einzeldatenbank mit bereitgestelltem Compute und acht virtuellen Kernen, basierend auf der Annahme, dass Sie gespeicherte Prozeduren in SQL-Datenbank ausführen müssen.

  • Die Preise für Data Lake Storage Gen2 hängen von der Datenmenge ab, die Sie speichern, und von der Häufigkeit, mit der Sie die Daten verwenden. Die Beispielpreise umfassen 1 TB gespeicherte Daten mit weiteren Transaktionsannahmen. Das 1 TB bezieht sich auf die Größe des Data Lake und nicht auf die ursprüngliche Größe der Legacy-Datenbank.

  • Die Kosten für Azure Synapse-Pipelines basieren auf der Anzahl der Datenpipelineaktivitäten, den Integration Runtime-Stunden, der Größe des Datenflussclusters sowie den Ausführungs- und Betriebsgebühren. Die Pipelinekosten steigen mit zusätzlichen Datenquellen und verarbeiteten Datenmengen. Im Beispiel wird davon ausgegangen, dass eine Datenquelle stündlich für 15 Minuten in einer in Azure gehosteten Integration Runtime als Batch verarbeitet wird.

  • Die Preise für einen Azure Synapse Spark-Pool basieren auf der Knotengröße, der Anzahl der Instanzen und der Betriebszeit. Im Beispiel wird von einem kleinen Computeknoten mit einer Auslastung von fünf Stunden pro Woche bis zu 40 Stunden pro Monat ausgegangen.

  • Die Preise eines serverlosen Azure Synapse SQL-pools basieren auf der Menge verarbeiteter Daten in TB. Im Beispiel wird davon ausgegangen, dass 50 TB pro Monat verarbeitet werden. Diese Zahl bezieht sich auf die Größe des Data Lake und nicht auf die ursprüngliche Größe der Legacy-Datenbank.

  • Event Hubs rechnet basierend auf der Dienstebene, den bereitgestellten Durchsatzeinheiten und dem empfangenen eingehenden Datenverkehr ab. Im Beispiel wird eine Durchsatzeinheit im Standard-Tarif von mehr als einer Million Ereignisse für einen Monat angenommen.

  • Die Kosten für Stream Analytics basieren auf der Anzahl der bereitgestellten Streamingeinheiten. Im Beispiel wird davon ausgegangen, dass eine Streamingeinheit im Laufe des Monats verwendet wird.

Beitragende

Dieser Artikel wird von Microsoft aktualisiert und gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

  • Galina Polyakova | Senior Cloud Solution Architect

Nächste Schritte