Was ist Data Warehousing in Microsoft Fabric?

Artikel
04/24/2024

Gilt für: SQL-Analyseendpunkt und Warehouse in Microsoft Fabric

Microsoft Fabric bietet Benutzer*innen ein einheitliches Produkt für alle Aspekte ihres Datenbestands. Hierfür wird eine umfassende, SaaS-orientierte Analyse- und KI-Plattform bereitgestellt, deren Fokus auf Data Lakes und Open-Source-Ansätzen liegt. Über eine umfassende, einfach zu verwendende und gemeinsam genutzte SaaS-Umgebung mit Microsoft OneLake als Herzstück ermöglicht die Grundlage von Microsoft Fabric sowohl Benutzer*innen ohne Kenntnisse als auch Expert*innen die Verwendung von Datenbank-, Analyse-, Messaging-, Datenintegrations- und Business-Intelligence-Workloads.

Lake-orientierte SaaS-Umgebung für jede Qualifikationsstufe

In Microsoft Fabric wird ein Lake-orientiertes Data Warehouse eingeführt, das auf einer verteilten Verarbeitungs-Engine auf Unternehmensniveau basiert, die branchenführende Leistung ermöglicht und gleichzeitig die Notwendigkeit von Konfiguration und Verwaltung beseitigt. Über eine einfach zu verwendende SaaS-Umgebung, die für einfache Analysen und die Berichterstellung eng in Power BI integriert ist, vereinen Warehouses in Microsoft Fabric den Bereich der Data Lakes und Warehouses mit dem Ziel, die Investitionen von Organisationen in ihren Analysebestand erheblich zu vereinfachen. Data-Warehousing-Workloads profitieren von den umfangreichen Funktionen der SQL-Engine über ein offenes Datenformat, sodass sich Benutzer*innen auf die Datenaufbereitung, Analyse und Berichterstellung mit einer einzelnen Kopie ihrer in Microsoft OneLake gespeicherten Daten konzentrieren können.

Das Warehouse ist für alle Qualifikationsstufen entwickelt, sodass es sowohl von Citizen Developers als auch von professionellen Entwickler*innen, Datenbankadministrator*innen und technischen Fachkräften für Daten verwendet werden kann. Dank der umfangreichen Funktionen im Microsoft Fabric-Arbeitsbereich müssen die Benutzer*innen weniger Zeit aufwenden, um Erkenntnisse zu erhalten. Dies wird durch ein einfach zu verwendendes, immer verbundenes semantisches Modell ermöglicht, das im DirectLake-Modus mit Power BI integriert ist. Auf diese Weise kann eine branchenführende Leistungsfähigkeit erzielt werden, mit der sichergestellt wird, dass Berichte von Benutzer*innen immer die neuesten Daten für die Analyse und Berichterstellung umfassen. Datenbankübergreifende Abfragen ermöglichen die schnelle und nahtlose Verwendung mehrerer Datenquellen aus mehreren Datenbanken für schnelle Erkenntnisse ganz ohne Datenduplizierung.

Virtuelle Warehouses mit datenbankübergreifender Abfrage

Microsoft Fabric bietet Benutzer*innen die Möglichkeit, mithilfe von Verknüpfungen virtuelle Warehouses mit Daten aus praktisch jeder Quelle einzurichten. Die Benutzer*innen können ein virtuelles Warehouse erstellen, indem sie unabhängig vom Speicherort Verknüpfungen zu ihren Daten erstellen. Ein virtuelles Warehouse kann innerhalb einer Umgebung und ohne Datenduplizierung Daten aus OneLake, Azure Data Lake Storage und anderen Cloudanbieterspeichern enthalten.

Durch die umfassenden datenbankübergreifenden Abfragen in Microsoft Fabric erhalten Sie Erkenntnisse aus einer Vielzahl von Datenquellen. Mithilfe dieser datenbankübergreifenden Abfragen können Benutzer*innen schnell und nahtlos mehrere Datenquellen für rasche Erkenntnisse ohne Datenduplizierung verwenden. Daten, die in verschiedenen Quellen gespeichert sind, können problemlos miteinander verknüpft werden, sodass Benutzer*innen umfassende Erkenntnisse erhalten, die zuvor erhebliche Anstrengungen von Datenintegrations- und Datentechnikteams erforderten.

Datenbankübergreifende Abfragen können über den Editor für visuelle Abfragen erstellt werden, der einen No-Code-Pfad zu Erkenntnissen aus mehreren Tabellen bietet. Der SQL-Abfrage-Editor oder andere gängige Tools wie SQL Server Management Studio (SSMS) können auch verwendet werden, um datenbankübergreifende Abfragen zu erstellen.

Autonome Workloadverwaltung

Warehouses in Microsoft Fabric nutzen eine branchenführende verteilte Abfrageverarbeitungs-Engine, die Benutzer*innen die Verwendung von Workloads mit einer natürlichen Isolationsgrenze ermöglicht. Für die autonome Zuordnung müssen keine Einstellungen vorgenommen werden, damit die Ressourcen so freigegeben werden, dass mithilfe der automatischen Skalierung und integrierten Parallelität immer die beste Leistung erzielt wird. Eine echte Isolation wird erreicht, indem Workloads mit unterschiedlichen Merkmalen getrennt werden, um sicherzustellen, dass ETL-Aufträge niemals Ad-hoc-Analyse- und Berichtserstellungsworkloads beeinträchtigen.

Offenes Format für nahtlose Engine-Interoperabilität

Daten im Warehouse werden im Parquet-Dateiformat gespeichert und als Delta Lake-Protokolle veröffentlicht, wodurch ACID-Transaktionen und die Engine-übergreifende Interoperabilität ermöglicht werden, die über andere Microsoft Fabric-Arbeitslasten wie Spark, Pipelines, Power BI und Azure Data Explorer genutzt werden können. Benutzer*innen müssen nicht mehr mehrere Kopien ihrer Daten für Datenexpert*innen mit unterschiedlichen Kenntnissen erstellen. Technische Fachkräfte für Daten, die mit der Arbeit in Python vertraut sind, können problemlos die Daten nutzen, die von Data Warehouse-Expert*innen modelliert und bereitgestellt wurden, die in der Regel SQL verwenden. Parallel dazu können BI-Expert*innen dieselben Daten schnell und einfach nutzen, um in Power BI eine breites Spektrum an Visualisierungen mit Datensatzleistung und ohne Datenduplizierung zu erstellen.

Trennung von Speicher und Compute

Compute und Speicher werden in einem Warehouse entkoppelt, sodass Benutzer*innen ihre Lösung praktisch verzögerungsfrei skalieren können, um die Anforderungen ihres Unternehmens zu erfüllen. Dadurch können mehrere Compute-Engines aus einer beliebigen unterstützten Speicherquelle mit robuster Sicherheit und vollständigen ACID-Transaktionsgarantien lesen.

Einfaches Erfassen, Laden und Transformieren

Daten können im Warehouse über Pipelines, Dataflows, datenbankübergreifende Abfragen oder den COPY INTO-Befehl erfasst werden. Nach der Erfassung können Daten von mehreren Unternehmensgruppen mithilfe von Funktionen wie Freigaben und datenbankübergreifenden Abfragen analysiert werden. Die für Erkenntnisse benötigte Zeit wird mithilfe einer vollständig integrierten BI-Benutzeroberfläche durch grafische Datenmodellierung und die einfach zu verwendende Weboberfläche für Abfragen im Warehouse-Editor verkürzt.

Datenspeicherung von Elementen in Microsoft Fabric

Es gibt zwei unterschiedliche Datenspeicherelemente: den SQL-Analyse-Endpunkt des Lakehouse und des Lagerortes.

SQL-Analyseendpunkt des Lakehouse

Ein SQL-Analyseendpunkt ist ein Warehouse, das automatisch über ein Lakehouse in Microsoft Fabric generiert wird. Benutzer*innen können von der Lake-Ansicht des Lakehouse (bietet Unterstützung für Datentechnik und Apache Spark) zur SQL-Ansicht desselben Lakehouse wechseln. Der SQL-Analyseendpunkt ist schreibgeschützt, und Daten können nur über die Lake-Ansicht des Lakehouse mit Spark geändert werden.

Über den SQL-Analyseendpunkt des Lakehouse steht den Benutzer*innen eine Teilmenge von SQL-Befehlen zur Verfügung, mit denen sie Datenobjekte definieren und abfragen, die Daten jedoch nicht bearbeiten können. Sie können die folgenden Aktionen im SQL-Analyseendpunkt ausführen:

Abfragen der Tabellen, die auf Daten in Ihren Delta Lake-Ordnern im Lake verweisen
Erstellen von Ansichten, Inline-TVFs und Prozeduren zum Kapseln Ihrer Semantik und Geschäftslogik in T-SQL
Verwalten von Berechtigungen für die Objekte

In Microsoft Fabric-Arbeitsbereichen ist bei SQL-Analyseendpunkten in der Spalte Typ „SQL analytics endpoint“ (SQL-Analyseendpunkt) angegeben. Jedes Lakehouse verfügt über einen automatisch generierten SQL-Analyseendpunkt, der über vertraute SQL-Tools wie das SQL Server Management Studio, Azure Data Studio und den SQL-Abfrage-Editor in Microsoft Fabric genutzt werden kann.

Informationen zu den ersten Schritten mit dem SQL-Analyseendpunkt finden Sie im Artikel zu Lakehouses und Warehouses in Microsoft Fabric.

Data Warehouse mit Synapse

In einem Microsoft Fabric-Arbeitsbereich wird ein Synapse Data Warehouse oder Warehouse unter der Spalte Typ als „Warehouse“ bezeichnet. Ein Warehouse unterstützt Transaktionen sowie DDL- und DML-Abfragen.

Im Gegensatz zu einem SQL-Analyseendpunkt, der nur schreibgeschützte Abfragen sowie das Erstellen von Ansichten und Tabellenwertfunktionen unterstützt, bietet ein Warehouse vollständige Unterstützung von Transaktions-DDLs und -DMLs und wird von den Benutzer*innen erstellt. Ein Warehouse wird durch eine der unterstützten Datenerfassungsmethoden aufgefüllt (z. B. COPY INTO, Pipelines, Dataflows oder datenbankübergreifende Erfassungsoptionen wie CREATE TABLE AS SELECT (CTAS), INSERT..SELECT und SELECT INTO).

Informationen zu den ersten Schritten mit dem Warehouse finden Sie unter Erstellen eines Warehouse in Microsoft Fabric.

Vergleich des Warehouse mit dem SQL-Analyseendpunkt des Lakehouse

In diesem Abschnitt werden die Unterschiede zwischen dem Warehouse und dem SQL-Analyseendpunkt in Microsoft Fabric beschrieben.

Diagramm des Fabric-Arbeitsbereichs für Datenspeicherung, einschließlich des SQL-Analyse-Endpunkts und Warehouses.

Der SQL-Analyseendpunkt ist ein schreibgeschütztes Warehouse, das bei der Erstellung über ein Lakehouse in Microsoft Fabric automatisch generiert wird. Deltatabellen, die über Spark in einem Lakehouse erstellt werden, sind automatisch im SQL-Analyseendpunkt als Tabellen auffindbar. Mithilfe des SQL-Analyseendpunkts können technische Fachkräfte für Daten eine auf physischen Daten im Lakehouse basierende relationale Schicht erstellen und diese unter Verwendung der SQL-Verbindungszeichenfolge für Analyse- und Berichterstellungstools bereitstellen. Data Analysts können dann T-SQL verwenden, um über Synapse-Data Warehouse auf Lakehouse-Daten zuzugreifen. Verwenden Sie den SQL-Analyseendpunkt, um Ihr Warehouse für BI-Anforderungen und die Bereitstellung von Daten zu entwerfen.

Das Synapse Data Warehouse bzw. Warehouse ist ein „herkömmliches“ Data Warehouse und unterstützt wie ein Data Warehouse für Unternehmen alle T-SQL-Transaktionsfunktionen. Im Gegensatz zum SQL-Analyseendpunkt, bei dem Tabellen und Daten automatisch erstellt werden, haben Sie die volle Kontrolle über das Erstellen von Tabellen sowie das Laden, Transformieren und Abfragen Ihrer Daten im Data Warehouse mit dem Microsoft Fabric-Portal oder T-SQL-Befehlen.

Weitere Informationen zum Abfragen Ihrer Daten in Microsoft Fabric finden Sie unter Abfragen des SQL-Analyseendpunkts oder Warehouse in Microsoft Fabric.

Vergleichen verschiedener Warehouse-Funktionen

Um Ihre Analyseanwendungsfälle optimal bereitzustellen, stehen Ihnen eine Vielzahl von Funktionen zur Verfügung. Im Allgemeinen kann man sich das Warehouse als eine Übergruppe aller anderen Funktionen vorstellen, die eine synergistische Beziehung zwischen allen anderen Analyseangeboten von T-SQL bietet.

In Fabric müssen sich Benutzer möglicherweise zwischen Warehouses, Lakehouses oder sogar Data Marts in Power BI entscheiden.

Microsoft Fabric-Angebot

Lagerort

SQL-Analyseendpunkt des Lakehouse

Data Marts in Power BI

Lizenzierung

Fabric oder Power BI Premium

nur Power BI Premium

Primäre Funktionen

ACID-konform, vollständiges Data Warehousing mit Transaktionsunterstützung in T-SQL

Schreibgeschützter, vom System generierter SQL-Analyseendpunkt für ein Lakehouse für T-SQL-Abfragen und -Bereitstellungen. Unterstützt Analysen für die Lakehouse-Deltatabellen und die Delta Lake-Ordner, auf die über Verknüpfungen verwiesen wird.

Data Warehousing ohne Code und T-SQL-Abfragen

Entwicklerprofil

SQL-Entwickler*innen oder Citizen Developers

Technische Fachkräfte für Daten oder SQL-Entwickler*innen

Nur Citizen Developers

Empfohlener Anwendungsfall

Data Warehousing für den Unternehmenseinsatz
Data Warehousing für Abteilungen, Geschäftseinheiten oder die Self-Service-Verwendung
Strukturierte Datenanalyse in T-SQL mit Tabellen, Ansichten, Prozeduren und Funktionen sowie Advanced SQL-Unterstützung für BI

Untersuchen und Abfragen von Deltatabellen aus dem Lakehouse
Stagingdaten und Archivierungszone für die Analyse
Medaillon-Lakehouse-Architektur mit Zonen für Analysen auf Bronze-, Silber- und Goldebene
Kopplung mit Warehouse für Analyseanwendungsfälle auf Unternehmensebene

Warehousing-Anwendungsfälle für kleine Abteilungen oder Geschäftseinheiten
Data Warehousing-Anwendungsfälle mit Self-Service-Ansatz
Zielzone für Power BI-Dataflows und einfache SQL-Unterstützung für BI

Entwicklungsumgebung

Warehouse-Editor mit vollständiger Unterstützung für die Erfassung, Modellierung, Entwicklung und Abfrage von T-SQL-Daten über die Benutzeroberfläche für die Datenerfassung, -modellierung und -abfrage
Lese-/Schreibunterstützung für Tools von Erst- und Drittanbietern

Lakehouse-SQL-Analyseendpunkt mit eingeschränkter T-SQL-Unterstützung für Ansichten, Tabellenwertfunktionen und SQL-Abfragen
Benutzeroberfläche für Modellierungen und Abfragen
Eingeschränkte T-SQL-Unterstützung für Tools von Erst- und Drittanbietern

Editor für Data Marts mit Benutzeroberflächenfunktionen und Abfrageunterstützung
Benutzeroberfläche für die Erfassung, Modellierung und Abfrage von Daten
Schreibgeschützte Unterstützung für Tools von Erst- und Drittanbietern

T-SQL-Funktionen

Vollständige DQL-, DML- und DDL-T-SQL-Unterstützung, vollständige Transaktionsunterstützung

Vollständige DQL-, keine DML- und eingeschränkte DDL-T-SQL-Unterstützung (z. B. SQL-Ansichten und -TVFs)

Nur vollständige DQL-Unterstützung

Laden von Daten

SQL, Pipelines, Dataflows

Spark, Pipelines, Dataflows, Verknüpfungen

Nur Dataflows

Unterstützung für Deltatabellen

Lese- und Schreibvorgänge im Zusammenhang mit Deltatabellen

Lesen von Deltatabellen

Nicht verfügbar

Speicherebene

Offenes Datenformat – Delta

Nicht verfügbar

Automatisch generiertes Schema im SQL-Analyseendpunkt des Lakehouse

Der SQL-Analyseendpunkt verwaltet die automatisch generierten Tabellen, sodass die Arbeitsbereichsbenutzer*innen sie nicht ändern können. Benutzer*innen können das Datenbankmodell anreichern, indem sie ihre eigenen SQL-Schemas, Ansichten, Prozeduren und andere Datenbankobjekte hinzufügen.

Der SQL-Analyseendpunkt generiert für jede Deltatabelle in Ihrem Lakehouse automatisch eine Tabelle.

Tabellen im SQL-Analyseendpunkt werden verzögert erstellt. Nachdem Sie den Delta Lake-Ordner bzw. die Tabelle im Lake erstellt oder aktualisiert haben, wird die Warehouse-Tabelle, die auf die Lake-Daten verweist, nicht sofort erstellt bzw. aktualisiert. Die Änderungen werden nach fünf bis zehn Sekunden im Warehouse angewendet.

Informationen zu automatisch generierten Schemadatentypen für den SQL-Analyseendpunkt finden Sie unter Datentypen in Microsoft Fabric.

Was ist Data Warehousing in Microsoft Fabric?

Lake-orientierte SaaS-Umgebung für jede Qualifikationsstufe