Übersicht über Azure Data Lake Storage für Cloud-Skalierungsanalysen

Artikel
07/11/2023

Der Azure Data Lake ist ein hochgradig skalierbarer und sicherer Datenspeicher für Ihre Hochleistungs-Analyseworkloads. Sie können Speicherkonten in einer einzelnen Ressourcengruppe für Cloud-Skalierungsanalysen erstellen. Es wird empfohlen, drei Azure Data Lake Storage Gen2-Konten in einer einzelnen Ressourcengruppe zu erstellen, ähnlich der storage-rg-Ressourcengruppe, die im Artikel cloud-scale analytics architecture data landing zone overview (Übersicht über die Datenzielzone der Cloud-Analytik-Architektur, in englischer Sprache) beschrieben ist.

Jedes Speicherkonto innerhalb Ihrer Datenzielzone speichert Daten in einer von drei Stages:

Rohdaten
Angereicherte und kuratierte Daten
Entwicklungs-Data Lakes

Eine Datenanwendung kann angereicherte und kuratierte Daten aus einem Speicherkonto nutzen, das einen automatisierten Datenagnostik-Erfassungsdienst aufgenommen hat. Sie können eine auf die Quelle ausgerichtete Datenanwendung erstellen, wenn Sie kein Datenagnostikmodul implementieren oder komplexe Verbindungen zum Aufnehmen von Daten aus operativen Quellen vereinfachen. Diese Datenanwendung folgt demselben Fluss wie ein Datenagnostikmodul beim Erfassen von Daten aus externen Datenquellen.

Data Lake Storage Gen2 unterstützt differenzierte Zugriffssteuerungslisten (ACLs), die Daten auf Datei- und Ordnerebene schützen. Zugriffssteuerungslisten können Ihrer Organisation helfen, enge Sicherheitsmaßnahmen für die Authentifizierung und Autorisierung für Datenprodukte zu implementieren:

Sichere Speicherung von Daten über die Verschlüsselung im Ruhezustand.
Zugriffssteuerungen für Microsoft Entra-Benutzer*innen und -Sicherheitsgruppen über die Microsoft Entra-Integration.

Data Lake-Planung

Bei der Planung eines Data Lakes sollten Sie stets Struktur, Governance und Sicherheit angemessen berücksichtigen. Mehrere Faktoren beeinflussen die Struktur und Organisation jedes Data Lake:

Der zu exportierende Datentyp
Die Art der Transformation der Daten
Wer auf seine Daten zugreift
Was ihre typischen Zugriffsmuster sind

Gruppenkunden und Produzenten basierend auf ihren Datenzugriffsanforderungen. Es empfiehlt sich, die Implementierungs- und Zugriffssteuerungsgovernance in Ihrem Data Lake zu planen.

Wenn Ihr Data Lake einige Datenressourcen und automatisierte Prozesse wie Extrahieren, Transformieren, Laden (ETL) enthält, ist Ihre Planung wahrscheinlich ziemlich einfach. Wenn Ihr Data Lake Hunderte von Datenressourcen umfasst und eine automatisierte und manuelle Interaktion beinhaltet, müssen Sie mit einer längeren Planungszeit rechnen, da Sie eine viel stärkere Zusammenarbeit mit den Datenbesitzern benötigen.

Analogie zum Datensumpf

Ein Datensumpf ist ein nicht verwalteter Data Lake, der für die Benutzer fast unzugänglich ist. Datensümpfe treten auf, wenn Sie keine Datenqualitäts- und Datengovernance-Maßnahmen implementieren. Sie können manchmal einen Datensumpf in einem Data Warehouse mit vorhandenen Hybridmodellen sehen.

Ordnungsgemäße Governance und Organisation verhindern Datensümpfe. Wenn Sie ein solides Fundament für Ihren Data Lake erstellen, erhöht sich die Chance auf nachhaltigen Erfolg und Geschäftswert des Data Lake.

Mit zunehmender Größe, Komplexität, Anzahl der Datenbestände und Anzahl der Benutzer oder Abteilungen Ihres Data Lakes wird ein robustes Datenkatalogsystem für Sie immer wichtiger. Ihr Datenkatalogsystem stellt sicher, dass Ihre Benutzer Daten finden, kennzeichnen und klassifizieren können, während sie Ihren Data Lake verarbeiten, nutzen und steuern.

Weitere Informationen finden Sie unter Übersicht über Datengovernance.

Speicherkonten in einem logischen Data Lake

Überlegen Sie, ob Ihre Organisation ein oder mehrere Speicherkonten benötigt, und überlegen Sie, welche Dateisysteme Sie benötigen, um Ihren logischen Data Lakes zu erstellen. Eine einzelne Speichertechnologie bietet mehrere Methoden für den Datenzugriff und hilft Ihnen bei der Standardisierung in Ihrer gesamten Organisation.

Data Lake Storage Gen2 ist eine vollständig verwaltete Plattform als Service (PaaS). Mehrere Speicherkonten oder Dateisysteme können erst dann Kosten verursachen, wenn auf Daten zugegriffen wird oder diese gespeichert werden. Beachten Sie, dass jede Azure-Ressource während der Bereitstellung, Sicherheit und Governance administrativen und betrieblichen Aufwand zugeordnet hat, einschließlich Sicherungen und Notfallwiederherstellung.

Hinweis

In jeder Datenzielzone werden drei Data Lakes veranschaulicht. Je nach Ihren Anforderungen können Sie jedoch die rohen, angereicherten und kuratierten Ebenen in einem Speicherkonto konsolidieren. Sie können ein weiteres Speicherkonto namens „Entwicklung“ erstellen, in dem Datenkunden andere nützliche Datenprodukte mitbringen können.

Berücksichtigen Sie bei der Entscheidung zwischen einem konsolidierten oder drei Speicherkontoansatz die folgenden Faktoren:

Isolation von Datenumgebungen und Vorhersagbarkeit.
- Sie können Aktivitäten isolieren, die in den Roh- und Entwicklungszonen ausgeführt werden, um potenzielle Auswirkungen auf die kuratierte Zone zu vermeiden, die Daten mit großem Geschäftswert enthält, der für die kritische Entscheidungsfindung erforderlich ist
Features und Funktionen auf Speicherkontoebene.
- Sie können wählen, ob Lebenszyklusverwaltungsoptionen oder Firewallregeln auf der Ebene der Datenzielzone oder auf Data Lake-Ebene angewendet werden müssen.
- Erstellen Sie mehrere Speicherkonten, aber nicht unerwünschte Silos.
- Vermeiden Sie das Erstellen doppelter Datenprojekte aufgrund mangelnder Transparenz oder mangelhaften Informationsaustauschs in Ihrer Organisation.
- Stellen Sie sicher, dass Sie über gute Datengovernance, Projektverfolgungstools und einen Datenkatalog verfügen.
Interaktion von Datenverarbeitungstools und -technologien mit Daten über mehrere Lakes basierend auf den konfigurierten Berechtigungen
Regionale und globale Lakes
- Global verteilte Consumer oder Prozesse im Lake sind möglicherweise anfällig für Latenz, die durch geografische Entfernungen verursacht wird.
- Das lokale Speichern von Daten ist eine bewährte Methode.
- Gesetzliche Auflagen und Datenhoheit können dazu führen, dass Daten in einer bestimmten Region verbleiben müssen.
- Weitere Informationen finden Sie unter Bereitstellungen in mehreren Regionen.

Bereitstellungen in mehreren Regionen

Wenn Sie von Datenresidenz-Regeln oder einer Anforderung bestimmt werden, dass Sie Daten in der Nähe einer Benutzerbasis behalten, müssen Sie möglicherweise Azure Data Lake-Konten in mehreren Azure-Regionen erstellen. Dazu erstellen Sie eine Datenzielzone in einer Region und replizieren dann die globalen Daten mit AzCopy, Azure Data Factory oder Produkten von Drittanbietern. Lokale Daten bleiben in der Region, während globale Daten über mehrere Regionen hinweg repliziert werden.

Nächste Schritte

Data Lake-Zeezonen und Container