Vergleich der Speicheroptionen für die Verwendung mit Azure HDInsight-ClusternCompare storage options for use with Azure HDInsight clusters

Sie haben beim Erstellen von HDInsight-Clustern die Auswahl zwischen verschiedenen Azure Storage-Diensten:You can choose between a few different Azure storage services when creating HDInsight clusters:

  • Azure StorageAzure Storage
  • Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1

Dieser Artikel bietet eine Übersicht über diese Speichertypen und ihre besonderen Merkmale.This article provides an overview of these storage types and their unique features.

Die folgende Tabelle enthält die Azure Storage-Dienste, die mit den unterschiedlichen Versionen von HDInsight unterstützt werden:The following table summarizes the Azure Storage services that are supported with different versions of HDInsight:

SpeicherdienstStorage service KontotypAccount type NamespacetypNamespace Type Unterstützte DiensteSupported services Unterstützte LeistungsstufenSupported performance tiers Unterstützte ZugriffsebenenSupported access tiers HDInsight-VersionHDInsight Version ClustertypCluster type
Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 Allgemein v2General-purpose V2 Hierarchisch (Dateisystem)Hierarchical (filesystem) BlobBlob StandardStandard Heiß, Kalt, ArchivHot, Cool, Archive 3.6 und höher3.6+ AlleAll
Azure StorageAzure Storage Allgemein v2General-purpose V2 ObjectObject BlobBlob StandardStandard Heiß, Kalt, ArchivHot, Cool, Archive 3.6 und höher3.6+ AlleAll
Azure StorageAzure Storage Allgemein v1General-purpose V1 ObjectObject BlobBlob StandardStandard N/A AlleAll AlleAll
Azure StorageAzure Storage Blob Storage**Blob Storage** ObjectObject BlockblobBlock Blob StandardStandard Heiß, Kalt, ArchivHot, Cool, Archive AlleAll AlleAll
Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1 N/A Hierarchisch (Dateisystem)Hierarchical (filesystem) N/A N/A N/A Nur 3.63.6 Only Alle mit Ausnahme von HBaseAll except HBase

**Für HDInsight-Cluster können nur sekundäre Speicherkonten den Typ „BlobStorage“ aufweisen und der Seitenblob ist keine unterstützte Speicheroption.**For HDInsight clusters, only secondary storage accounts can be of type BlobStorage and Page Blob is not a supported storage option.

Weitere Informationen zu Azure Storage-Kontotypen finden Sie unter Azure-Speicherkonten – Übersicht.For more information on Azure Storage account types, see Azure storage account overview

Weitere Informationen zu Azure Storage-Zugriffsebenen finden Sie unter Azure Blob Storage: Speicherebenen „Premium“ (Vorschauversion), „Heiß“, „Kalt“ und „Archiv“.For more information on Azure Storage access tiers, see Azure Blob storage: Premium (preview), Hot, Cool, and Archive storage tiers

Sie können einen Cluster mit anderen Kombinationen von Diensten für den primären und optional einen sekundären Speicher erstellen.You can create a cluster using different combinations of services for primary and optional secondary storage. Die folgende Tabelle enthält die Clusterspeicherkonfigurationen, die derzeit in HDInsight unterstützt werden:The following table summarizes the cluster storage configurations that are currently supported in HDInsight:

HDInsight-VersionHDInsight Version Primärer SpeicherPrimary Storage Sekundärer SpeicherSecondary Storage UnterstütztSupported
3.6 und 4.03.6 & 4.0 Universell V1, Universell V2General Purpose V1 , General Purpose V2 Universell V1, Universell V2, BlobStorage (Blockblobs)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) JaYes
3.6 und 4.03.6 & 4.0 Universell V1, Universell V2General Purpose V1 , General Purpose V2 Data Lake Storage Gen2Data Lake Storage Gen2 NeinNo
3.6 und 4.03.6 & 4.0 Universell V1, Universell V2General Purpose V1 , General Purpose V2 Data Lake Storage Gen1Data Lake Storage Gen1 JaYes
3.6 und 4.03.6 & 4.0 Data Lake Storage Gen2*Data Lake Storage Gen2* Data Lake Storage Gen2Data Lake Storage Gen2 JaYes
3.6 und 4.03.6 & 4.0 Data Lake Storage Gen2*Data Lake Storage Gen2* Universell V1, Universell V2, BlobStorage (Blockblobs)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) JaYes
3.6 und 4.03.6 & 4.0 Data Lake Storage Gen2Data Lake Storage Gen2 Data Lake Storage Gen1Data Lake Storage Gen1 NeinNo
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 Data Lake Storage Gen1Data Lake Storage Gen1 JaYes
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 Universell V1, Universell V2, BlobStorage (Blockblobs)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) JaYes
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 Data Lake Storage Gen2Data Lake Storage Gen2 NeinNo
4,04.0 Data Lake Storage Gen1Data Lake Storage Gen1 AnyAny NeinNo

* Dies können etwa Data Lake Storage Gen2-Konten sein, sofern sie alle für die Verwendung derselben verwalteten Identität für den Clusterzugriff eingerichtet wurden.*=This could be one or multiple Data Lake Storage Gen2 accounts, as long as they are all setup to use the same managed identity for cluster access.

Verwenden von Azure Data Lake Storage Gen2 mit Apache Hadoop in Azure HDInsightUse Azure Data Lake Storage Gen2 with Apache Hadoop in Azure HDInsight

Azure Data Lake Storage Gen2 integriert Kernfeatures von Azure Data Lake Storage Gen1 in Azure Blob Storage.Azure Data Lake Storage Gen2 takes core features from Azure Data Lake Storage Gen1 and integrates them into Azure Blob storage. Zu diesen Features gehört ein Dateisystem, das mit Hadoop, Azure Active Directory (Azure AD) und POSIX-basierten Zugriffssteuerungslisten (ACLs) kompatibel ist.These features include a file system that is compatible with Hadoop, Azure Active Directory (Azure AD), and POSIX-based access control lists (ACLs). Durch diese Kombination können Sie die Leistung von Azure Data Lake Storage Gen1 nutzen und gleichzeitig das Tiering und die Verwaltung des Datenlebenszyklus von Blob Storage verwenden.This combination allows you to take advantage of the performance of Azure Data Lake Storage Gen1 while also using the tiering and data life-cycle management of Blob storage.

Weitere Informationen zu Data Lake Storage Gen2 finden Sie in der Einführung in Azure Data Lake Storage Gen2.For more information on Azure Data Lake Storage Gen2, see Introduction to Azure Data Lake Storage Gen2.

Kernfunktionen von Azure Data Lake Storage Gen2Core functionality of Azure Data Lake Storage Gen2

  • Mit Hadoop kompatibler Zugriff: In Azure Data Lake Storage Gen2 können Sie ebenso auf Daten zugreifen und diese verwalten wie mit einem Hadoop Distributed File System (HDFS).Access that is compatible with Hadoop: In Azure Data Lake Storage Gen2, you can manage and access data just as you would with a Hadoop Distributed File System (HDFS). Der ABFS-Treiber (Azure Blob File System) ist in allen Apache Hadoop-Umgebungen verfügbar, einschließlich Azure HDInsight und Azure Databricks.The Azure Blob File System (ABFS) driver is available within all Apache Hadoop environments, including Azure HDInsight and Azure Databricks. Mit ABFS können Sie auf die in Data Lake Storage Gen2 gespeicherten Daten zugreifen.Use ABFS to access data stored in Data Lake Storage Gen2.

  • Obermenge von POSIX-Berechtigungen: Das Sicherheitsmodell für Data Lake Gen2 unterstützt Zugriffssteuerungslisten und POSIX-Berechtigungen sowie zusätzliche Granularität speziell für Data Lake Storage Gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Die Einstellungen können über Verwaltungstools oder Frameworks wie Apache Hive und Apache Spark konfiguriert werden.Settings can be configured through admin tools or frameworks like Apache Hive and Apache Spark.

  • Kosteneffizienz: Data Lake Storage Gen2 bietet kostengünstige Speicherkapazität und -transaktionen.Cost effectiveness: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Features wie der Lebenszyklus von Azure Blob Storage helfen beim Senken der Kosten, indem sie die Abrechnungsraten anpassen, während die Daten den Lebenszyklus durchlaufen.Features such as Azure Blob storage life cycle help lower costs by adjusting billing rates as data moves through its life cycle.

  • Kompatibilität mit Blob Storage-Tools, -Frameworks und -Apps: Data Lake Storage Gen2 funktioniert weiterhin mit einer Vielzahl von Tools, Frameworks und Anwendungen für Blob Storage.Compatibility with Blob storage tools, frameworks, and apps: Data Lake Storage Gen2 continues to work with a wide array of tools, frameworks, and applications for Blob storage.

  • Optimierter Treiber: Der ABFS-Treiber ist speziell für Big Data-Analysen optimiert.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Die entsprechenden REST-APIs werden über den DFS-Endpunkt (Distributed File System, verteiltes Dateisystem) dfs.core.windows.net bereitgestellt.The corresponding REST APIs are surfaced through the distributed file system (DFS) endpoint, dfs.core.windows.net.

Neues bei Azure Data Lake Storage Gen2What's new for Azure Data Lake Storage Gen 2

Verwaltete Identitäten für sicheren DateizugriffManaged identities for secure file access

Azure HDInsight verwendet verwaltete Identitäten, um den Clusterzugriff auf Dateien in Azure Data Lake Storage Gen2 zu sichern.Azure HDInsight uses managed identities to secure cluster access to files in Azure Data Lake Storage Gen2. Verwaltete Identitäten sind ein Feature von Azure Active Directory, das Azure-Diensten eine Reihe von automatisch verwalteten Anmeldeinformationen zur Verfügung stellt.Managed identities are a feature of Azure Active Directory that provides Azure services with a set of automatically managed credentials. Diese Anmeldeinformationen können zur Authentifizierung bei jedem Dienst verwendet werden, der Active Directory-Authentifizierung unterstützt.These credentials can be used to authenticate to any service that supports Active Directory authentication. Die Verwendung verwalteter Identitäten erfordert nicht, dass Sie Anmeldeinformationen in Code- oder Konfigurationsdateien speichern.Using managed identities doesn't require you to store credentials in code or configuration files.

Weitere Informationen finden Sie unter Verwaltete Identitäten für Azure-Ressourcen.For more information, see Managed identities for Azure resources.

Azure Blob File System-TreiberAzure Blob File System driver

Apache Hadoop-Anwendungen erwarten nativ, dass sie Daten von lokalen Datenträgerspeichern lesen und auf diese schreiben.Apache Hadoop applications natively expect to read and write data from local disk storage. Ein Hadoop-Dateisystemtreiber wie ABFS ermöglicht es Hadoop-Anwendungen, mit Cloudspeicher zu arbeiten, indem reguläre Hadoop-Dateisystemvorgänge emuliert werden.A Hadoop file system driver like ABFS enables Hadoop applications to work with cloud storage by emulating regular Hadoop file system operations. Der Treiber wandelt diese anschließend in Vorgänge um, die von der eigentlichen Cloudspeicherplattform interpretiert werden können.The driver converts those commands received from the application into operations that the actual cloud storage platform understands.

Bisher wurden mit dem Hadoop-Dateisystemtreiber alle Dateisystemoperationen auf Clientseite in Azure Storage-REST-API-Aufrufe umgewandelt, und dann wurde die REST-API aufgerufen.Previously, the Hadoop file system driver converted all file system operations to Azure Storage REST API calls on the client side and then invoked the REST API. Diese clientseitige Konvertierung führte jedoch zu mehreren REST-API-Aufrufen für einzelne Dateisystemvorgänge wie das Umbenennen einer Datei.This client-side conversion, however, resulted in multiple REST API calls for a single file system operation like the renaming of a file. Mit ABFS wurde ein Teil der Hadoop-Dateisystemlogik von der Clientseite zur Serverseite verschoben.ABFS has moved some of the Hadoop file system logic from the client side to the server side. Die Azure Data Lake Storage Gen2-API wird jetzt parallel zur Blob-API ausgeführt.The Azure Data Lake Storage Gen2 API now runs in parallel with the Blob API. Diese Migration verbessert die Leistung, da jetzt gängige Hadoop-Dateisystemvorgänge mit einem REST-API-Aufruf ausgeführt werden können.This migration improves performance because now common Hadoop file system operations can be executed with one REST API call.

Weitere Informationen finden Sie unter Azure-Blobdateisystemtreiber (ABFS): Ein dedizierter Azure Storage-Treiber für Hadoop.For more information, see The Azure Blob Filesystem driver (ABFS): A dedicated Azure Storage driver for Hadoop.

URI-Schema für Azure Data Lake Storage Gen2URI scheme for Azure Data Lake Storage Gen 2

Azure Data Lake Storage Gen2 verwendet für den Zugriff auf Dateien in Azure Storage aus HDInsight ein neues URI-Schema:Azure Data Lake Storage Gen2 uses a new URI scheme to access files in Azure Storage from HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Das URI-Schema bietet SSL-verschlüsselten Zugriff.The URI scheme provides SSL-encrypted access.

<FILE_SYSTEM_NAME> gibt den Pfad des Dateisystems in Data Lake Storage Gen2 an.<FILE_SYSTEM_NAME> identifies the path of the file system Data Lake Storage Gen2.

<ACCOUNT_NAME> gibt den Namen des Azure Storage-Kontos an.<ACCOUNT_NAME> identifies the Azure Storage account name. Ein vollqualifizierter Domänenname (FQDN) ist erforderlich.A fully qualified domain name (FQDN) is required.

<PATH> ist der HDFS-Pfadname für die Datei oder das Verzeichnis.<PATH> is the file or directory HDFS path name.

Wenn keine Werte für <FILE_SYSTEM_NAME> und <ACCOUNT_NAME> angegeben sind, wird das Standarddateisystem verwendet.If values for <FILE_SYSTEM_NAME> and <ACCOUNT_NAME> aren't specified, the default file system is used. Für die Dateien im Standarddateisystem können Sie relative oder absolute Pfade verwenden.For the files on the default file system, use a relative path or an absolute path. Auf die Datei hadoop-mapreduce-examples.jar, die sich in HDInsight-Clustern befindet, kann z. B. mithilfe eines der folgenden Pfade verwiesen werden:For example, the hadoop-mapreduce-examples.jar file that comes with HDInsight clusters can be referred to by using one of the following paths:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Hinweis

In HDInsight-Clustern der Version 2.1 und 1.6 lautet der Dateiname hadoop-examples.jar.The file name is hadoop-examples.jar in HDInsight versions 2.1 and 1.6 clusters. Wenn Sie Dateien außerhalb von HDInsight verwenden, wird das ABFS-Format von den meisten Hilfsprogrammen nicht erkannt. Stattdessen wird ein einfaches Pfadformat wie example/jars/hadoop-mapreduce-examples.jar erwartet.When you're working with files outside of HDInsight, you'll find that most utilities don't recognize the ABFS format but instead expect a basic path format, such as example/jars/hadoop-mapreduce-examples.jar.

Weitere Informationen finden Sie unter Verwenden des Azure Data Lake Storage Gen2-URI.For more information, see Use the Azure Data Lake Storage Gen2 URI.

Azure StorageAzure Storage

Azure Storage stellt eine robuste universelle Speicherlösung dar, die nahtlos mit HDInsight integriert werden kann.Azure Storage is a robust general-purpose storage solution that integrates seamlessly with HDInsight. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden.HDInsight can use a blob container in Azure Storage as the default file system for the cluster. Über eine HDFS-Schnittstelle können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind.Through an HDFS interface, the full set of components in HDInsight can operate directly on structured or unstructured data stored as blobs.

Es wird empfohlen, separate Speichercontainer für Ihren Standardclusterspeicher und Ihre Geschäftsdaten zu verwenden, um die HDInsight-Protokolle und die temporären Dateien von Ihren eigenen Geschäftsdaten zu isolieren.We recommend to use separate storage containers for your default cluster storage and your business data, to isolate the HDInsight logs and temporary files from your own business data. Wir empfehlen, die Standardblobcontainer mit den Anwendungs- und Systemprotokollen nach jeder Verwendung zu löschen, um die Speicherkosten zu verringern.We also recommend deleting the default blob container, which contains application and system logs, after each use to reduce storage cost. Stellen Sie sicher, dass Sie die Protokolle abrufen, bevor Sie den Container löschen.Make sure to retrieve the logs before deleting the container.

Wenn Sie sich dazu entscheiden, Ihr Speicherkonto mit den Firewalls und virtuelle Netzwerke-Einschränkungen auf Ausgewählte Netzwerke zu schützen, denken Sie daran, die Ausnahme Vertrauenswürdige Microsoft-Dienste zulassen… zu aktivieren, damit HDInsight auf Ihr Speicherkonto zugreifen kann.If you choose to secure your storage account with the Firewalls and virtual networks restrictions on Selected networks, be sure to enable the exception Allow trusted Microsoft services... so that HDInsight can access your storage account.

HDInsight-SpeicherarchitekturHDInsight storage architecture

Das folgende Diagramm bietet eine verallgemeinerte Übersicht über die HDInsight-Architektur von Azure Storage:The following diagram provides an abstract view of the HDInsight architecture of Azure Storage:

HDInsight Storage-ArchitekturHDInsight Storage Architecture

HDInsight bietet Zugang zum verteilten Dateisystem, das lokal an die Rechenknoten angefügt ist.HDInsight provides access to the distributed file system that is locally attached to the compute nodes. Auf dieses Dateisystem kann über den vollständig qualifizierten URI zugegriffen werden. Zum Beispiel:This file system can be accessed by using the fully qualified URI, for example:

hdfs://<namenodehost>/<path>

Mit HDInsight können Sie auch auf Daten in Azure Storage zugreifen.Through HDInsight you can also access data in Azure Storage. Die Syntax lautet wie folgt:The syntax is as follows:

wasb://<containername>@<accountname>.blob.core.windows.net/<path>

Berücksichtigen Sie die folgenden Prinzipien, wenn Sie ein Azure Storage-Konto mit HDInsight-Clustern verwenden:Consider the following principles when using an Azure Storage account with HDInsight clusters:

  • Container in Speicherkonten, die mit einem Cluster verbunden sind: Da Kontoname und Schlüssel dem Cluster bei der Erstellung zugeordnet werden, haben Sie vollständigen Zugriff auf die Blobs in diesen Containern.Containers in the storage accounts that are connected to a cluster: Because the account name and key are associated with the cluster during creation, you have full access to the blobs in those containers.

  • Öffentliche Container oder öffentliche Blobs in Speicherkonten, die nicht mit einem Cluster verbunden sind: Sie verfügen über Leserechte für die Blobs in den Containern.Public containers or public blobs in storage accounts that are not connected to a cluster: You have read-only permission to the blobs in the containers.

    Hinweis

    Öffentliche Container erlauben das Abrufen einer Liste aller im Container verfügbaren Blobs und der Container-Metadaten.Public containers allow you to get a list of all blobs that are available in that container and to get container metadata. Auf öffentliche Blobs haben Sie nur Zugriff, wenn Sie die exakte URL kennen.Public blobs allow you to access the blobs only if you know the exact URL. Weitere Informationen finden Sie unter Verwalten des anonymen Lesezugriffs auf Container und Blobs.For more information, see Manage anonymous read access to containers and blobs.

  • Private Container in Speicherkonten, die nicht mit einem Cluster verbunden sind: Sie können nicht auf die Blobs in den Containern zugreifen, es sei denn, Sie definieren beim Senden der WebHCat-Aufträge das Speicherkonto.Private containers in storage accounts that are not connected to a cluster: You can't access the blobs in the containers unless you define the storage account when you submit the WebHCat jobs.

Die bei der Erstellung definierten Speicherkonten und ihre Schlüssel werden in der Datei „%HADOOP_HOME%/conf/core-site.xml“ auf den Clusterknoten gespeichert.The storage accounts that are defined in the creation process and their keys are stored in %HADOOP_HOME%/conf/core-site.xml on the cluster nodes. Standardmäßig verwendet HDInsight die in der Datei „core-site.xml“ definierten Speicherkonten.By default, HDInsight uses the storage accounts defined in the core-site.xml file. Sie können diese Einstellung mit Apache Ambari ändern.You can modify this setting by using Apache Ambari.

Verschiedene WebHCat-Aufträge, darunter Apache Hive, MapReduce, Apache Hadoop Streaming und Apache Pig, können eine Beschreibung von Speicherkonten und Metadaten enthalten.Multiple WebHCat jobs, including Apache Hive, MapReduce, Apache Hadoop streaming, and Apache Pig, can carry a description of storage accounts and metadata with them. (Dies funktioniert momentan nur für Pig mit Speicherkonten, nicht für Metadaten.) Weitere Informationen finden Sie unter Verwenden eines HDInsight-Clusters mit alternativen Speicherkonten und Metastores.(This is currently true for Pig with storage accounts but not for metadata.) For more information, see Using an HDInsight cluster with alternate storage accounts and metastores.

Blobs können für strukturierte und unstrukturierte Daten verwendet werden.Blobs can be used for structured and unstructured data. In Blobcontainern werden Daten als Schlüssel-Wert-Paare gespeichert, und es gibt keine Verzeichnishierarchie.Blob containers store data as key/value pairs and have no directory hierarchy. Der Schlüsselname kann jedoch einen Schrägstrich (/) enthalten, damit es so aussieht, als wäre eine Datei in einer Verzeichnisstruktur gespeichert.However the key name can include a slash character ( / ) to make it appear as if a file is stored within a directory structure. Der Schlüssel eines Blobs kann z.B. input/log1.txt lauten.For example, a blob's key can be input/log1.txt. Es gibt kein Verzeichnis input, aber aufgrund des Schrägstrichs im Namen sieht der Schlüssel wie ein Dateipfad aus.No actual input directory exists, but because of the slash character in the key name, the key looks like a file path.

Vorteile von Azure StorageBenefits of Azure Storage

Für Computecluster und Speicherressourcen, die sich nicht am selben Ort befinden, fallen implizite Leistungskosten an.Compute clusters and storage resources that aren't colocated have implied performance costs. Diese Kosten können dadurch verringert werden, dass Computecluster nahe bei den Speicherkontoressourcen innerhalb der Azure-Region erstellt werden.These costs are mitigated by the way the compute clusters are created close to the storage account resources inside the Azure region. In dieser Region können die Serverknoten effizient über das Hochgeschwindigkeitsnetzwerk in Azure Storage auf die Daten zugreifen.In this region, the compute nodes can efficiently access the data over the high-speed network inside Azure Storage.

Wenn Sie die Daten in Azure Storage anstelle von HDFS speichern, erhalten Sie mehrere Vorteile:When you store the data in Azure Storage instead of HDFS, you get several benefits:

  • Datenwiederverwendung und -freigabe: Die Daten im HDFS befinden sich innerhalb des Computeclusters.Data reuse and sharing: The data in HDFS is located inside the compute cluster. Nur die Anwendungen, die Zugriff auf den Rechencluster haben, können die Daten über die HDFS-API verwenden.Only the applications that have access to the compute cluster can use the data by using HDFS APIs. Auf die Daten in Azure Storage kann im Gegensatz dazu über die HDFS-APIs oder über die Blob Storage-REST-APIs zugegriffen werden.The data in Azure Storage, by contrast, can be accessed through either the HDFS APIs or the Blob storage REST APIs. Dadurch kann eine größere Menge von Anwendungen (darunter andere HDInsight-Cluster) und Tools verwendet werden, um die Daten zu produzieren und abzurufen.Because of this arrangement, a larger set of applications (including other HDInsight clusters) and tools can be used to produce and consume the data.

  • Datenarchivierung: Wenn Daten in Azure Storage gespeichert werden, kann der für Berechnungen verwendete HDInsight-Cluster sicher gelöscht werden, ohne Benutzerdaten zu verlieren.Data archiving: When data is stored in Azure Storage, the HDInsight clusters used for computation can be safely deleted without losing user data.

  • Datenspeicherkosten: Die langfristige Datenspeicherung in DFS ist kostspieliger als die Datenspeicherung in Azure Storage, da die Kosten eines Computeclusters höher als die Kosten für Azure Storage sind.Data storage cost: Storing data in DFS for the long term is more costly than storing the data in Azure Storage because the cost of a compute cluster is higher than the cost of Azure Storage. Da die Daten nicht für jede Erzeugung eines neues Computeclusters neu geladen werden müssen, sparen Sie außerdem Kosten für das Laden von Daten.Also, because the data doesn't have to be reloaded for every compute cluster generation, you're saving data-loading costs as well.

  • Elastische horizontale Skalierung: Auch wenn HDFS ein horizontal skaliertes Dateisystem bietet, wird die Skalierung durch die Anzahl der Knoten bestimmt, die Sie für Ihren Cluster erstellen.Elastic scale-out: Although HDFS provides you with a scaled-out file system, the scale is determined by the number of nodes that you create for your cluster. Eine Änderung der Skalierung kann weitaus schwieriger sein, als auf die Kapazitäten der elastischen Skalierung zu vertrauen, die Ihnen Azure Storage automatisch bietet.Changing the scale can be more complicated than relying on the elastic scaling capabilities that you get automatically in Azure Storage.

  • Georeplikation: Für Azure Storage kann eine Georeplikation durchgeführt werden.Geo-replication: Your Azure Storage can be geo-replicated. Obwohl die Georeplikation geografische Wiederherstellung und Datenredundanz bietet, wirkt sich ein Failover auf den georeplizierten Standort stark auf die Leistung aus und kann zusätzliche Kosten nach sich ziehen.Although geo-replication gives you geographic recovery and data redundancy, a failover to the geo-replicated location severely affects your performance, and it might incur additional costs. Sie sollten die Georeplikation mit Bedacht und nur dann auswählen, wenn der Wert der Daten die zusätzlichen Kosten rechtfertigt.So choose geo-replication cautiously and only if the value of the data justifies the additional cost.

Bestimmte MapReduce-Aufträge und -Pakete können zu Zwischenergebnissen führen, die Sie nicht in Azure Storage speichern möchten.Certain MapReduce jobs and packages might create intermediate results that you wouldn't want to store in Azure Storage. In diesem Fall können Sie die Dateien auch im lokalen HDFS speichern.In that case, you can choose to store the data in the local HDFS. HDInsight verwendet für einige dieser Zwischenergebnisse in Hive-Aufträge und anderen Prozessen DFS.HDInsight uses DFS for several of these intermediate results in Hive jobs and other processes.

Hinweis

Die meisten HDFS-Befehle (z.B. ls, copyFromLocal und mkdir) funktionieren in Azure Storage wie erwartet.Most HDFS commands (for example, ls, copyFromLocal, and mkdir) work as expected in Azure Storage. Nur die für die native (als DFS bezeichnete) HDFS-Implementierung spezifischen Befehle wie fschk und dfsadmin weisen in Azure Storage ein anderes Verhalten auf.Only the commands that are specific to the native HDFS implementation (which is referred to as DFS), such as fschk and dfsadmin, show different behavior in Azure Storage.

Übersicht über Azure Data Lake Storage Gen1Overview of Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 ist ein unternehmensweites Hyperscale-Repository für Big Data-Analyseworkloads.Azure Data Lake Storage Gen1 is an enterprise-wide hyperscale repository for big data analytic workloads. Mit Azure Data Lake können Sie Daten von beliebiger Größe, Art und Erfassungsgeschwindigkeit für operative und explorative Analysen an einem Ort erfassen.Using Azure Data Lake, you can capture data of any size, type, and ingestion speed in one place for operational and exploratory analytics.

Greifen Sie über Hadoop (verfügbar mit einem HDInsight-Cluster) mithilfe der WebHDFS-kompatiblen REST-APIs auf Data Lake Storage Gen1 zu.Access Data Lake Storage Gen1 from Hadoop (available with an HDInsight cluster) by using the WebHDFS-compatible REST APIs. Data Lake Storage Gen1 wurde speziell für Analysen der gespeicherten Daten konzipiert und ist für eine hohe Leistung in Datenanalyseszenarien optimiert.Data Lake Storage Gen1 is designed to enable analytics on the stored data and is tuned for performance in data analytics scenarios. Es umfasst bereits vorkonfiguriert Funktionen, die für echte Anwendungsfälle von Unternehmen unerlässlich sind.Out of the box, it includes the capabilities that are essential for real-world enterprise use cases. Zu den Funktionen gehören Sicherheit, Verwaltbarkeit, Skalierbarkeit, Zuverlässigkeit und Verfügbarkeit.These capabilities include security, manageability, scalability, reliability, and availability.

Weitere Informationen zu Data Lake Storage Gen1 finden Sie in der ausführlichen Übersicht über Azure Data Lake Storage Gen1.For more information on Azure Data Lake Storage Gen1, see the detailed Overview of Azure Data Lake Storage Gen1.

Data Lake Storage Gen1 bietet u.a. die folgenden wichtigen Funktionen.The key capabilities of Data Lake Storage Gen1 include the following.

Kompatibilität mit HadoopCompatibility with Hadoop

Data Lake Storage Gen1 ist ein Apache Hadoop-Dateisystem, das mit HDFS kompatibel ist und mit dem Hadoop-Ökosystem funktioniert.Data Lake Storage Gen1 is an Apache Hadoop file system that is compatible with HDFS and works with the Hadoop ecosystem. Ihre vorhandenen HDInsight-Anwendungen oder -Dienste, die die WebHDFS-API verwenden, können problemlos in Data Lake Storage Gen1 integriert werden.Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Data Lake Storage Gen1 macht auch eine WebHDFS-kompatible REST-Schnittstelle für Anwendungen verfügbar.Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications.

In Data Lake Storage Gen1 gespeicherte Daten können mühelos mit Hadoop-Analyseframeworks wie MapReduce oder Hive analysiert werden.Data stored in Data Lake Storage Gen1 can be easily analyzed using Hadoop analytic frameworks such as MapReduce or Hive. Azure HDInsight-Cluster können für den direkten Zugriff auf in Data Lake Storage Gen1 gespeicherte Daten bereitgestellt und konfiguriert werden.Azure HDInsight clusters can be provisioned and configured to directly access data stored in Data Lake Storage Gen1.

Unbegrenzter Speicher, Dateigrößen bis in den PetabytebereichUnlimited storage, petabyte files

Data Lake Storage Gen1 bietet unbegrenzten Speicher und eignet sich zum Speichern unterschiedlichster Daten für Analysezwecke.Data Lake Storage Gen1 provides unlimited storage and is suitable for storing a variety of data for analytics. Es gibt keine Einschränkungen für Kontogrößen, Dateigrößen oder die Menge an Daten, die in einem Data Lake gespeichert werden kann.It doesn't impose limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. Data Lake Storage Gen1 unterstützt Dateigrößen vom Kilobyte- bis in den Petabytebereich und ist somit eine gute Wahl für die Speicherung von Daten jeglicher Art.Individual files can range in size from kilobytes to petabytes, making Data Lake Storage Gen1 a great choice to store any type of data. Daten werden dauerhaft gespeichert, indem mehrere Kopien erstellt werden, die dann für unbegrenzte Zeit im Data Lake verbleiben können.Data is stored durably by making multiple copies, and there are no limits on how long the data can be stored in the data lake.

Leistungsoptimierung für Big Data-AnalysenPerformance tuning for big data analytics

Data Lake Storage Gen1 ist für die Ausführung großer Analysesysteme ausgelegt, die zum Abfragen und Analysieren großer Datenmengen einen enormen Durchsatz erfordern.Data Lake Storage Gen1 is built to run large-scale analytic systems that require massive throughput to query and analyze large amounts of data. Der Data Lake verteilt Teile einer Datei auf mehrere einzelne Speicherserver.The data lake spreads parts of a file over several individual storage servers. Dieses Setup verbessert beim Analysieren der Daten den Lesedurchsatz, wenn die Datei parallel gelesen wird.When you're analyzing data, this setup improves the read throughput when the file is read in parallel.

Bereitschaft für Unternehmen: Hoch verfügbar und sicherReadiness for enterprise: Highly available and secure

Data Lake Storage Gen1 bietet Verfügbarkeit und Zuverlässigkeit nach Branchenstandard.Data Lake Storage Gen1 provides industry-standard availability and reliability. Datenressourcen werden dauerhaft gespeichert: Redundante Kopien schützen vor unerwarteten Fehlern.Data assets are stored durably: redundant copies guard against unexpected failures. Unternehmen können Data Lake Storage Gen1 in ihren Lösungen als wesentlichen Bestandteil ihrer vorhandenen Datenplattform einsetzen.Enterprises can use Data Lake Storage Gen1 in their solutions as an important part of their existing data platform.

Data Lake Storage Gen1 bietet außerdem Sicherheit auf Unternehmensniveau für gespeicherte Daten.Data Lake Storage Gen1 also provides enterprise-grade security for stored data. Weitere Informationen finden Sie unter Schützen von Daten in Data Lake Storage Gen1.For more information, see Securing data in Azure Data Lake Storage Gen1.

Flexible DatenstrukturenFlexible data structures

Data Lake Storage Gen1 kann beliebige Daten ohne vorherige Umwandlung im nativen Format speichern.Data Lake Storage Gen1 can store any data in its native format, as is, without requiring prior transformations. Es muss für Data Lake Storage Gen1 kein Schema definiert werden, bevor die Daten geladen werden.Data Lake Storage Gen1 doesn't require a schema to be defined before the data is loaded. Das jeweilige Analyseframework interpretiert die Daten und definiert ein Schema zum Zeitpunkt der Analyse.The individual analytic framework interprets the data and defines a schema at the time of the analysis. Da Dateien beliebiger Größe und Formate gespeichert werden können, kann Data Lake Storage Gen1 strukturierte, teilweise strukturierte und unstrukturierte Daten verarbeiten.Because it can store files of arbitrary sizes and formats, Data Lake Storage Gen1 can handle structured, semistructured, and unstructured data.

Data Lake Storage Gen1-Container für Daten sind im Wesentlichen Ordner und Dateien.Data Lake Storage Gen1 containers for data are essentially folders and files. Sie arbeiten mit den gespeicherten Daten über SDKs, das Azure-Portal und Azure PowerShell.You operate on the stored data by using SDKs, the Azure portal, and Azure PowerShell. Solange Sie Ihre Daten unter Verwendung dieser Schnittstellen im Speicher ablegen und die entsprechenden Container verwenden, können Sie alle Datentypen speichern.As long as you put your data into the store by using these interfaces and the appropriate containers, you can store any type of data. Data Lake Storage Gen1 führt keine spezielle Verarbeitung von Daten basierend auf dem Typ der gespeicherten Daten durch.Data Lake Storage Gen1 doesn't perform any special handling of data based on the type of data it stores.

Datensicherheit in Data Lake Storage Gen1Data security in Data Lake Storage Gen1

Data Lake Storage Gen1 verwendet Azure Active Directory zur Authentifizierung und Zugriffssteuerungslisten (ACLs) zum Verwalten des Zugriffs auf Ihre Daten.Data Lake Storage Gen1 uses Azure Active Directory for authentication and uses access control lists (ACLs) to manage access to your data.

FeatureFeature BeschreibungDescription
AuthenticationAuthentication Zur Identitäts- und Zugriffsverwaltung für alle in Data Lake Storage Gen1 gespeicherten Daten ist Data Lake Storage Gen1 in Azure Active Directory (Azure AD) integriert.Data Lake Storage Gen1 integrates with Azure Active Directory (Azure AD) for identity and access management for all the data stored in Data Lake Storage Gen1. Aufgrund dieser Integration profitiert Data Lake Storage Gen1 von allen Azure AD-Features.Because of the integration, Data Lake Storage Gen1 benefits from all Azure AD features. Dazu gehören mehrstufige Authentifizierung, bedingter Zugriff, rollenbasierte Zugriffssteuerung, Überwachung der Anwendungsnutzung, Sicherheitsüberwachung und -warnungen usw.These features include multifactor authentication, Conditional Access, role-based access control, application usage monitoring, security monitoring and alerting, and so on. Data Lake Storage Gen1 unterstützt das OAuth 2.0-Protokoll für die Authentifizierung mit der REST-Schnittstelle.Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication within the REST interface. Weitere Informationen finden Sie unter Authentifizierung bei Azure Data Lake Storage Gen1 mit Azure Active Directory.See Authentication within Azure Data Lake Storage Gen1 using Azure Active Directory
ZugriffssteuerungAccess control Data Lake Storage Gen1 ermöglicht eine Zugriffssteuerung durch die Unterstützung von POSIX-Berechtigungen, die durch das WebHDFS-Protokoll verfügbar gemacht werden.Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions that are exposed by the WebHDFS protocol. ACLs können für Stammordner, Unterordner und einzelne Dateien aktiviert werden.ACLs can be enabled on the root folder, on subfolders, and on individual files. Weitere Informationen zur Funktionsweise von ACLs im Kontext von Data Lake Storage Gen1 finden Sie unter Zugriffssteuerung in Azure Data Lake Storage Gen1.For more information on how ACLs work in the context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
VerschlüsselungEncryption Data Lake Storage Gen1 bietet auch eine Verschlüsselung für Daten, die im Konto gespeichert sind.Data Lake Storage Gen1 also provides encryption for data that is stored in the account. Beim Erstellen eines Data Lake Storage Gen1-Kontos geben Sie die Einstellungen für die Verschlüsselung an.You specify the encryption settings while creating a Data Lake Storage Gen1 account. Sie können auswählen, ob Ihre Daten verschlüsselt werden sollen.You can choose to have your data encrypted or opt for no encryption. Weitere Informationen finden Sie unter Verschlüsselung von Daten in Azure Data Lake Storage Gen1.For more information, see Encryption in Data Lake Storage Gen1. Anweisungen zur Bereitstellung einer verschlüsselungsbezogenen Konfiguration finden Sie unter Erste Schritte mit Azure Data Lake Storage Gen1 über das Azure-Portal.For instructions on how to provide an encryption-related configuration, see Get started with Azure Data Lake Storage Gen1 using the Azure portal.

Weitere Informationen zum Schutz von Daten in Data Lake Storage Gen1 finden Sie unter Sichern von in Azure Data Lake Storage Gen1 gespeicherten Daten.To learn more about securing data in Data Lake Storage Gen1, see Securing data stored in Azure Data Lake Storage Gen1.

Mit Data Lake Storage Gen1 kompatible AnwendungenApplications that are compatible with Data Lake Storage Gen1

Data Lake Storage Gen1 ist mit den meisten Open Source-Komponenten im Hadoop-Ökosystem kompatibel.Data Lake Storage Gen1 is compatible with most open-source components in the Hadoop ecosystem. Außerdem ist eine problemlose Integration in andere Azure-Dienste möglich.It also integrates nicely with other Azure services. Über die folgenden Links erhalten Sie weitere Informationen zur Verwendung von Data Lake Storage Gen1 mit Open Source-Komponenten und anderen Azure-Diensten.Follow the links below to learn more about how Data Lake Storage Gen1 can be used both with open-source components as well as other Azure services.

Data Lake Storage Gen1-Dateisystem (adl://)Data Lake Storage Gen1 file system (adl://)

In Hadoop-Umgebungen (verfügbar mit HDInsight-Cluster) kann über das neue Dateisystem AzureDataLakeFilesystem (adl://) auf Data Lake Storage Gen1 zugegriffen werden.In Hadoop environments (available with an HDInsight cluster), you can access Data Lake Storage Gen1 through the new file system, the AzureDataLakeFilesystem (adl://). Für die Optimierung der Leistung von Anwendungen und Diensten, die adl:// verwenden, stehen Möglichkeiten zur Verfügung, die derzeit in WebHDFS nicht verfügbar sind.The performance of applications and services that use adl:// can be optimized in ways that aren't currently available in WebHDFS. Daher bietet Ihnen Data Lake Storage Gen1 die Flexibilität, mit adl:// die optimale Leistung zu nutzen (empfohlen) oder vorhandenen Code beizubehalten, indem Sie die WebHDFS-API weiterhin direkt verwenden.As a result, when you use Data Lake Storage Gen1, you get the flexibility to either avail the best performance by using the recommended adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight nutzt die Möglichkeiten des AzureDataLakeFilesystem voll aus, um eine optimale Leistung für Data Lake Storage Gen1 bereitzustellen.Azure HDInsight takes full advantage of the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

Sie können mithilfe der folgenden Elemente auf Ihre Daten in Data Lake Storage Gen1 zugreifen:Access your data in Data Lake Storage Gen1 by using the following:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Weitere Informationen zum Zugriff auf die Daten in Data Lake Storage Gen1 finden Sie unter Verfügbare Aktionen mit den gespeicherten Daten.For more information on how to access the data in Data Lake Storage Gen1, see Actions available on the stored data.

Nächste SchritteNext steps