Einführung in Azure Data Lake Storage Gen2Introduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 setzt auf Azure Blob Storage auf und bietet eine Reihe von Funktionen für die Big Data-Analyse.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Azure Data Lake Storage Gen2 führt die Funktionen unserer beiden vorhandenen Speicherdienste Azure Blob Storage und Azure Data Lake Storage Gen1 zusammen.Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. Features von Azure Data Lake Storage Gen1 (z.B. Dateisystemsemantik, Sicherheit auf Verzeichnis- und Dateiebene und Skalierbarkeit) werden mit den kostengünstigen, mehrstufigen Speicherlösungen, Hochverfügbarkeits- und Notfallwiederherstellungsfunktionen von Azure Blob Storage kombiniert.Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

Für Big Data-Analysen in Großunternehmen entwickeltDesigned for enterprise big data analytics

Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Ein wesentlicher Bestandteil von Data Lake Storage Gen2 ist das Hinzufügen eines hierarchischen Namespace zum Blobspeicher.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. Der hierarchische Namespace organisiert Objekte/Dateien in einer Hierarchie von Verzeichnissen für den effizienten Datenzugriff.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Eine allgemeine Namenskonvention für die Objektspeicherung verwendet Schrägstriche im Namen, um eine hierarchische Verzeichnisstruktur nachzuahmen.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Mit Data Lake Storage Gen2 wird diese Struktur Wirklichkeit.This structure becomes real with Data Lake Storage Gen2. Vorgänge wie das Umbenennen oder Löschen eines Verzeichnisses werden zu einzelnen atomaren Metadatenvorgängen im Verzeichnis, anstatt alle Objekte aufzuzählen und zu verarbeiten, die das Namenspräfix des Verzeichnisses gemeinsam haben.Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

In der Vergangenheit mussten bei cloudbasierten Analysen Kompromisse in puncto Leistung, Verwaltung und Sicherheit eingegangen werden.In the past, cloud-based analytics had to compromise in areas of performance, management, and security. Data Lake Storage Gen2 geht jeden dieser Aspekte auf folgende Weise an:Data Lake Storage Gen2 addresses each of these aspects in the following ways:

  • Die Leistung ist optimiert, da Sie keine Daten als Voraussetzung für die Analyse kopieren oder transformieren müssen.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. Der hierarchische Namespace verbessert die Leistung von Verzeichnisverwaltungsvorgängen erheblich, wodurch die gesamte Auftragsverarbeitungsleistung gesteigert wird.The hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • Die Verwaltung ist einfacher, weil Sie Dateien mithilfe von Verzeichnissen und Unterverzeichnissen organisieren und bearbeiten können.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • Die Sicherheit ist durchsetzbar, da Sie POSIX-Berechtigungen für Verzeichnisse oder einzelne Dateien definieren können.Security is enforceable because you can define POSIX permissions on directories or individual files.

  • Kosteneffizienz wird ermöglicht, da Data Lake Storage Gen2 auf kostengünstigem Azure Blob Storage aufsetzt.Cost effectiveness is made possible as Data Lake Storage Gen2 is built on top of the low-cost Azure Blob storage. Durch diese zusätzlichen Features werden die Gesamtbetriebskosten für Big Data-Analysen in Azure weiter gesenkt.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Besondere Features von Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Hadoop-kompatibler Zugriff: Data Lake Storage Gen2 ermöglicht einen mit einem Hadoop Distributed File System (HDFS) vergleichbaren Zugriff auf Daten sowie deren Verwaltung.Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). Der neue ABFS-Treiber ist in allen Apache Hadoop-Umgebungen verfügbar, einschließlich Azure HDInsight , Azure Databricks und SQL Data Warehouse, um auf die in Data Lake Storage Gen2 gespeicherten Daten zuzugreifen.The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and SQL Data Warehouse to access data stored in Data Lake Storage Gen2.

  • Obermenge von POSIX-Berechtigungen: Das Sicherheitsmodell für Data Lake Gen2 unterstützt Zugriffssteuerungslisten und POSIX-Berechtigungen sowie zusätzliche Granularität speziell für Data Lake Storage Gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Die Einstellungen können über den Storage-Explorer oder Frameworks wie Hive und Spark konfiguriert werden.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Kosteneffizienz: Data Lake Storage Gen2 bietet kostengünstige Speicherkapazität und -transaktionen.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Während Daten ihren gesamten Lebenszyklus durchlaufen, ändern sich Abrechnungstarife, wodurch die Kosten durch integrierte Funktionen wie Azure Blob Storage-Lebenszyklus auf ein Minimum reduziert werden.As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • Optimierter Treiber: Der ABFS-Treiber ist speziell für Big Data-Analysen optimiert.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Die entsprechenden REST-APIs werden über den Endpunkt dfs.core.windows.net bereitgestellt.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

SkalierbarkeitScalability

Azure Storage ist unabhängig davon skalierbar, ob der Zugriff über Data Lake Storage Gen2- oder Blob Storage-Schnittstellen erfolgt.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Die Lösung ist in der Lage, viele Exabyte an Daten zu speichern und zu verwalten.It is able to store and serve many exabytes of data. Diese Speichermenge steht mit einem Durchsatz zur Verfügung, der in Gigabit pro Sekunde (GBit/s) bei hohen Graden von Ein-/Ausgabevorgängen pro Sekunde (IOPS) gemessen wird.This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Über die reine dauerhafte Speicherung hinaus erfolgt die Verarbeitung mit nahezu konstanten Wartezeiten pro Anforderung, die auf Dienst-, Konten- und Dateiebene gemessen werden.Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

KosteneffizienzCost effectiveness

Einer der vielen Vorteile davon, dass Data Lake Storage Gen2 auf Azure Blob Storage aufsetzt, sind die niedrigen Kosten für Speicherkapazität und -transaktionen.One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. Im Gegensatz zu anderen Cloudspeicherdiensten müssen in Data Lake Storage Gen2 gespeicherte Daten vor der Analyse nicht verschoben oder transformiert werden.Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. Weitere Informationen zu den Preisen finden Sie unter Preise für Azure Storage.For more information about pricing, see Azure Storage pricing.

Zusätzlich verbessern Features wie der hierarchische Namespace die Gesamtleistung vieler Analyseaufträge erheblich.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Diese Leistungsverbesserung bedeutet, dass Sie weniger Rechenleistung benötigen, um die gleiche Datenmenge zu verarbeiten, was zu niedrigeren Gesamtbetriebskosten für den gesamten Analyseauftrag führt.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Ein Dienst, mehrere KonzepteOne service, multiple concepts

Data Lake Storage Gen2 bietet eine zusätzliche Möglichkeit für Big Data-Analysen, da die Lösung auf Azure Blob Storage aufbaut.Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. Während es viele Vorteile bei der Nutzung vorhandener Plattformkomponenten von Blobs zur Erstellung und zum Betrieb von Data Lakes für Analysen gibt, führt dies zu mehreren Konzepten, die die gleichen, gemeinsamen Aspekte beschreiben.While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

Die folgenden Begriffe stellen äquivalente Entitäten dar, wie sie durch verschiedene Konzepte beschrieben werden.The following are the equivalent entities, as described by different concepts. Sofern nicht anders angegeben, sind diese Einheiten direkte Synonyme:Unless specified otherwise these entities are directly synonymous:

KonzeptConcept Organisation auf oberster EbeneTop Level Organization Organisation auf niedriger EbeneLower Level Organization DatencontainerData Container
Blobs – universeller ObjektspeicherBlobs – General purpose object storage ContainerContainer Virtuelles Verzeichnis (nur SDK, stellt keinen atomarische Bearbeitung bereit)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
Azure Data Lake Storage Gen2 – Analytics StorageAzure Data Lake Storage Gen2 – Analytics Storage ContainerContainer VerzeichnisDirectory DateiFile

Unterstützte Open-Source-PlattformenSupported open source platforms

Mehrere Open-Source-Plattformen unterstützen Data Lake Storage Gen2.Several open source platforms support Data Lake Storage Gen2. Diese Plattformen werden in der folgenden Tabelle aufgeführt.Those platforms appear in the following table.

Hinweis

Nur die Versionen, die in dieser Tabelle genannt werden, werden unterstützt.Only the versions that appear in this table are supported.

PlattformPlatform Unterstützte Version(en)Supported Version(s) Weitere InformationenMore Information
HDInsightHDInsight 3.6 und höher3.6+ Welche Apache Hadoop-Komponenten und -Versionen sind in HDInsight verfügbar?What are the Apache Hadoop components and versions available with HDInsight?
HadoopHadoop 3.2 und höher3.2+ Apache Hadoop-ReleasearchivApache Hadoop releases archive
ClouderaCloudera 6.1 und höher6.1+ Cloudera Enterprise 6.x, Anmerkungen zu dieser VersionCloudera Enterprise 6.x release notes
Azure DatabricksAzure Databricks 5.1 und höher5.1+ Databricks Runtime-VersionenDatabricks Runtime versions
HortonworksHortonworks 3.1.x und höher3.1.x++ Configuring Cloud Data Access (Konfigurieren des Zugriffs auf Clouddaten)Configuring cloud data access

Unterstützte Azure-DiensteSupported Azure services

Data Lake Storage Gen2 unterstützt verschiedene Azure-Dienste, die Sie zum Erfassen von Daten, zum Durchführen von Analysen und zum Erstellen visueller Darstellungen verwenden können.Data Lake Storage gen2 supports several Azure services that you can use to ingest data, perform analytics, and create visual representations. Eine Liste der unterstützten Azure-Dienste finden Sie unter Integration von Azure Data Lake Storage in Azure-Dienste.For a list of supported Azure services, see Integrate Azure Data Lake Storage with Azure services.

Nächste SchritteNext steps

In den folgenden Artikeln werden einige der wichtigsten Konzepte von Data Lake Storage Gen2 beschrieben. Zudem wird erläutert, wie Sie Ihre Daten speichern, darauf zugreifen, sie verwalten und Einsichten daraus gewinnen können:The following articles describe some of the main concepts of Data Lake Storage Gen2 and detail how to store, access, manage, and gain insights from your data: