Einführung in Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 setzt auf Azure Blob Storage auf und bietet eine Reihe von Funktionen für die Big Data-Analyse.

Data Lake Storage Gen2 vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.

Für Big Data-Analysen in Großunternehmen entwickelt

Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.

Ein wesentlicher Bestandteil von Data Lake Storage Gen2 ist das Hinzufügen eines hierarchischen Namespace zum Blobspeicher. Der hierarchische Namespace organisiert Objekte/Dateien in einer Hierarchie von Verzeichnissen für den effizienten Datenzugriff. Eine allgemeine Namenskonvention für die Objektspeicherung verwendet Schrägstriche im Namen, um eine hierarchische Verzeichnisstruktur nachzuahmen. Mit Data Lake Storage Gen2 wird diese Struktur Wirklichkeit. Vorgänge wie das Umbenennen oder Löschen eines Verzeichnisses werden zu einzelnen atomaren Metadatenvorgängen im Verzeichnis. Es müssen nicht alle Objekte aufgezählt und verarbeitet werden, die das Namenspräfix des Verzeichnisses gemeinsam haben.

Data Lake Storage Gen2 baut auf Blobspeicher auf und verbessert wie folgt die Leistung, Verwaltung und Sicherheit:

  • Die Leistung ist optimiert, da Sie keine Daten als Voraussetzung für die Analyse kopieren oder transformieren müssen. Im Vergleich zum flachen Namespace im Blobspeicher verbessert der hierarchische Namespace die Leistung von Verzeichnisverwaltungsvorgängen erheblich, wodurch die gesamte Auftragsverarbeitungsleistung gesteigert wird.

  • Die Verwaltung ist einfacher, weil Sie Dateien mithilfe von Verzeichnissen und Unterverzeichnissen organisieren und bearbeiten können.

  • Die Sicherheit ist durchsetzbar, da Sie POSIX-Berechtigungen für Verzeichnisse oder einzelne Dateien definieren können.

Data Lake Storage Gen2 ist darüber hinaus sehr kostengünstig, da diese SKU auf dem kostengünstigen Azure Blob Storage aufbaut. Durch diese zusätzlichen Features werden die Gesamtbetriebskosten für Big Data-Analysen in Azure weiter gesenkt.

Besondere Features von Data Lake Storage Gen2

  • Mit Hadoop kompatibler Zugriff: Data Lake Storage Gen2 ermöglicht einen mit einem Hadoop Distributed File System (HDFS) vergleichbaren Zugriff auf Daten und deren Verwaltung. Der neue ABFS-Treiber (für den Datenzugriff) ist in allen Apache Hadoop-Umgebungen verfügbar. Zu diesen Umgebungen zählen unter anderem Azure HDInsight,Azure Databricks und Azure Synapse Analytics.

  • Obermenge von POSIX-Berechtigungen: Das Sicherheitsmodell für Data Lake Gen2 unterstützt Zugriffssteuerungslisten und POSIX-Berechtigungen sowie zusätzliche Granularität speziell für Data Lake Storage Gen2. Die Einstellungen können über den Storage-Explorer oder Frameworks wie Hive und Spark konfiguriert werden.

  • Kosteneffizienz: Data Lake Storage Gen2 bietet kostengünstige Speicherkapazität und -transaktionen. Features wie Azure Blob Storage-Lebenszyklus tragen während des Lebenszyklus der Daten zur Kostenoptimierung bei.

  • Optimierter Treiber: Der ABFS-Treiber ist speziell für Big Data-Analysen optimiert. Die entsprechenden REST-APIs werden über den Endpunkt dfs.core.windows.net bereitgestellt.

Skalierbarkeit

Azure Storage ist unabhängig davon skalierbar, ob der Zugriff über Data Lake Storage Gen2- oder Blob Storage-Schnittstellen erfolgt. Die Lösung ist in der Lage, viele Exabyte an Daten zu speichern und zu verwalten. Diese Speichermenge steht mit einem Durchsatz zur Verfügung, der in Gigabit pro Sekunde (GBit/s) bei hohen Graden von Ein-/Ausgabevorgängen pro Sekunde (IOPS) gemessen wird. Die Verarbeitung erfolgt mit nahezu konstanten Wartezeiten pro Anforderung, die auf Dienst-, Konten- und Dateiebene gemessen werden.

Kosteneffizienz

Da Data Lake Storage Gen2 auf Azure Blob Storage basiert, sind die Kosten für Speicherkapazität und Transaktionen geringer. Anders als bei anderen Cloudspeicherdiensten müssen Ihre Daten vor der Analyse nicht verschoben oder transformiert werden. Weitere Informationen zu den Preisen finden Sie unter Preise für Azure Storage.

Zusätzlich verbessern Features wie der hierarchische Namespace die Gesamtleistung vieler Analyseaufträge erheblich. Diese Leistungsverbesserung bedeutet, dass Sie weniger Rechenleistung benötigen, um die gleiche Datenmenge zu verarbeiten, was zu niedrigeren Gesamtbetriebskosten für den gesamten Analyseauftrag führt.

Ein Dienst, mehrere Konzepte

Da Data Lake Storage Gen2 auf Azure Blob Storage basiert, können mehrere Konzepte die gleichen gemeinsamen Aspekte beschreiben.

Die folgenden Begriffe stellen äquivalente Entitäten dar, wie sie durch verschiedene Konzepte beschrieben werden. Sofern nicht anders angegeben, sind diese Einheiten direkte Synonyme:

Konzept Organisation auf oberster Ebene Organisation auf niedriger Ebene Datencontainer
Blobs – universeller Objektspeicher Container Virtuelles Verzeichnis (nur SDK, stellt keinen atomarische Bearbeitung bereit) Blob
Azure Data Lake Storage Gen2 – Analytics Storage Container Verzeichnis Datei

Unterstützte Blob Storage-Features

Für Ihr Konto stehen Blob Storage-Features wie Diagnoseprotokollierung, Zugriffsebenen und Richtlinien für die Blob Storage-Lebenszyklusverwaltung zur Verfügung. Die meisten Blob Storage-Features werden vollständig unterstützt, aber einige Features werden nur auf Vorschauebene oder noch nicht unterstützt.

Informationen zur Unterstützung der einzelnen Blob Storage-Features mit Data Lake Storage Gen2 finden Sie unter Unterstützung von Blob Storage-Features in Azure Storage-Konten.

Unterstützte Azure-Dienstintegrationen

Von Azure Data Lake Storage Gen2 werden verschiedene Azure-Dienste unterstützt. Mit diesen Diensten können Sie Daten erfassen, Analysen durchführen und visuelle Darstellungen erstellen. Eine Liste der unterstützten Azure-Dienste finden Sie unter Azure-Dienste, die Azure Data Lake Storage Gen2 unterstützen.

Unterstützte Open-Source-Plattformen

Mehrere Open-Source-Plattformen unterstützen Data Lake Storage Gen2. Eine vollständige Liste finden Sie unter Open-Source-Plattformen, die Azure Data Lake Storage Gen2 unterstützen.

Siehe auch