Erstellen von HDInsight-Clustern mit Azure Data Lake Storage Gen1 mithilfe des Azure-Portals

Artikel
05/29/2018

Hier erfahren Sie, wie Sie im Azure-Portal einen HDInsight-Cluster mit Azure Data Lake Storage Gen1 als Standardspeicher oder zusätzlichen Speicher erstellen. Obwohl zusätzlicher Speicher für einen HDInsight-Cluster optional ist, wird empfohlen, dass Sie Ihre Geschäftsdaten in den zusätzlichen Speicherkonten speichern.

Voraussetzungen

Bevor Sie beginnen, sorgen Sie dafür, dass Sie die folgenden Anforderungen erfüllt haben:

Ein Azure-Abonnement. Navigieren Sie zu Kostenlose Azure-Testversion.
Ein Azure Data Lake Storage Gen1-Konto. Führen Sie die Schritte in der Anleitung unter Erste Schritte mit Azure Data Lake Storage Gen1 mithilfe des Azure-Portals aus. Sie müssen auch einen Stammordner für das Konto erstellen. In diesem Artikel wird der Stammordner /clusters verwendet.
ein Microsoft Entra Dienstprinzipal. Diese Anleitung enthält Anweisungen zum Erstellen eines Dienstprinzipals in Microsoft Entra ID. Um jedoch einen Dienstprinzipal zu erstellen, müssen Sie ein Microsoft Entra Administrator sein. Wenn Sie ein Administrator sind, können Sie diese Voraussetzung überspringen und den Vorgang fortsetzen.

Hinweis

Sie können einen Dienstprinzipal nur erstellen, wenn Sie Microsoft Entra Administrator sind. Ihr Microsoft Entra Administrator muss einen Dienstprinzipal erstellen, bevor Sie einen HDInsight-Cluster mit Data Lake Storage Gen1 erstellen können. Zudem muss der Dienstprinzipal mit einem Zertifikat erstellt werden, wie unter Create a service principal with certificate (Erstellen eines Dienstprinzipals mit einem Zertifikat) beschrieben.

Erstellen eines HDInsight-Clusters

In diesem Abschnitt erstellen Sie einen HDInsight-Cluster mit Data Lake Storage Gen1 als Standardspeicher oder zusätzlichen Speicher. Dieser Artikel befasst sich nur mit dem Konfigurieren von Data Lake Storage Gen1. Allgemeine Informationen zu Clustererstellung und Verfahren finden Sie unter Erstellen von Hadoop-Clustern in HDInsight.

Erstellen eines Clusters mit Data Lake Storage Gen1 als Standardspeicher

So erstellen Sie einen HDInsight-Cluster mit Data Lake Storage Gen1 als Standardspeicherkonto:

Melden Sie sich beim Azure-Portal an.
Befolgen Sie die allgemeinen Informationen zum Erstellen von HDInsight-Clustern unter Erstellen von Clustern.
Wählen Sie auf dem Blatt Speicher unter Primärer Speichertyp die Option Azure Data Lake Storage Gen1 aus, und geben Sie dann die folgenden Informationen ein:
- Data Lake Store-Konto wählen: Wählen Sie ein vorhandenes Data Lake Storage Gen1-Konto aus. Ein vorhandenes Data Lake Storage Gen1-Konto ist erforderlich. Siehe Voraussetzungen.
- Stammpfad: Geben Sie einen Pfad ein, in dem die clusterspezifischen Dateien gespeichert werden sollen. Im Screenshot lautet der Pfad /clusters/myhdiadlcluster/ , in dem der Ordner /clusters vorhanden sein muss. Der Ordner myhdicluster wird vom Portal erstellt. myhdicluster ist der Clustername.
- Data Lake Store-Zugriff: Konfigurieren Sie den Zugriff zwischen dem Data Lake Storage Gen1-Konto und dem HDInsight-Cluster. Eine Anleitung finden Sie unter Konfigurieren des Data Lake Storage Gen1-Zugriffs.
- Zusätzliche Speicherkonten: Fügen Sie Azure-Speicherkonten als zusätzliche Speicherkonten für den Cluster hinzu. Das Hinzufügen zusätzlicher Data Lake Storage Gen1-Konten erfolgt, indem dem Cluster die Berechtigungen für Daten in weiteren Data Lake Storage Gen1-Konten erteilt werden, während ein Data Lake Storage Gen1-Konto als primärer Speichertyp konfiguriert wird. Siehe Konfigurieren des Data Lake Storage Gen1-Zugriffs.
Klicken Sie auf dem Blatt Data Lake Store-Zugriff auf Auswählen, und fahren Sie mit der Clustererstellung wie unter Erstellen von Hadoop-Clustern in HDInsight beschrieben fort.

Erstellen eines Clusters mit Data Lake Storage Gen1 als zusätzlichem Speicher

Befolgen Sie die folgenden Anweisungen, um einen HDInsight-Cluster mit einem Azure Blob Storage-Konto als Standardspeicher und einem Speicherkonto mit Data Lake Storage Gen1 als zusätzlichem Speicher zu erstellen.

So erstellen Sie einen HDInsight-Cluster mit Data Lake Storage Gen1 als zusätzliches Speicherkonto:

Melden Sie sich beim Azure-Portal an.
Befolgen Sie die allgemeinen Informationen zum Erstellen von HDInsight-Clustern unter Erstellen von Clustern.
Wählen Sie auf dem Blatt Speicher unter Primärer Speichertyp die Option Azure Storage aus, und geben Sie dann die folgenden Informationen ein:
- Auswahlmethode – Um ein Speicherkonto anzugeben, das Teil Ihres Azure-Abonnements ist, wählen Sie Meine Abonnements und dann das betreffende Speicherkonto aus. Um ein Speicherkonto anzugeben, das außerhalb Ihres Azure-Abonnements liegt, wählen Sie Zugriffsschlüssel aus, und geben Sie dann die Informationen des externen Speicherkontos an.
- Standardcontainer – Verwenden Sie entweder den Standardwert, oder geben Sie einen eigenen Namen an.
- Zusätzliche Speicherkonten – Fügen Sie weitere Azure-Speicherkonten als zusätzlichen Speicher hinzu.
- Data Lake Store-Zugriff – Konfigurieren Sie den Zugriff zwischen dem Data Lake Storage Gen1-Konto und dem HDInsight-Cluster. Eine Anleitung finden Sie unter Konfigurieren des Data Lake Storage Gen1-Zugriffs.

Konfigurieren des Data Lake Storage Gen1-Zugriffs

In diesem Abschnitt konfigurieren Sie Data Lake Storage Gen1 Zugriff von HDInsight-Clustern mithilfe eines Microsoft Entra-Dienstprinzipals.

Angeben eines Dienstprinzipals

Im Azure-Portal können Sie einen vorhandenen Dienstprinzipal verwenden oder einen neuen erstellen.

So erstellen Sie einen Dienstprinzipal im Azure-Portal:

Weitere Informationen finden Sie unter Erstellen von Dienstprinzipalen und Zertifikaten mit Microsoft Entra ID.

So verwenden Sie einen im Azure-Portal vorhandenen Dienstprinzipal:

Der Dienstprinzipal sollte Besitzerberechtigungen für das Speicherkonto besitzen. Weitere Informationen finden Sie unter Einrichten von Berechtigungen für den Dienstprinzipal als Besitzer des Speicherkontos.
Wählen Sie Data Lake Store-Zugriff aus.
Wählen Sie auf dem Blatt Data Lake Storage Gen1-Zugriff die Option Vorhandenen verwenden aus.
Wählen Sie Dienstprinzipal und dann den vorhandenen Dienstprinzipal aus.
Laden Sie das Zertifikat (PFX-Datei) hoch, das dem ausgewählten Dienstprinzipal zugeordnet ist, und geben Sie dann das Zertifikatkennwort ein.
Wählen Sie Zugriff aus, um den Zugriff auf den Ordner zu konfigurieren. Siehe Konfigurieren von Dateiberechtigungen.

Einrichten von Berechtigungen für den Dienstprinzipal als Besitzer des Speicherkontos

Klicken Sie auf dem Blatt „Zugriffssteuerung (IAM)“ des Speicherkontos auf „Rollenzuweisung hinzufügen“.
Wählen Sie auf dem Blatt „Rollenzuweisung hinzufügen“ für die Rolle die Option „Besitzer“ und dann den SPN aus, und klicken Sie auf „Speichern“.

Konfigurieren von Dateiberechtigungen

Die Konfiguration variiert je nachdem, ob das Konto als Standardspeicher oder zusätzliches Speicherkonto verwendet wird:

Als Standardspeicher
- Berechtigung auf Stammebene des Data Lake Storage Gen1-Kontos
- Berechtigung auf Stammebene des HDInsight-Cluster-Speichers Beispiel: Der zuvor in diesem Tutorial verwendete Ordner /clusters.
Als zusätzlicher Speicher
- Berechtigung für die Ordner, in denen Sie Dateizugriff benötigen.

So weisen Sie die Berechtigung auf Stammebene des Speicherkontos mit Data Lake Storage Gen1 zu:

Wählen Sie auf dem Blatt Data Lake Storage Gen1-Zugriff die Option Zugriff aus. Das Blatt Dateiberechtigungen auswählen ist standardmäßig geöffnet. Hier werden alle Speicherkonten in Ihrem Abonnement aufgelistet.
Zeigen Sie mit der Maus (ohne zu klicken) auf den Namen des Kontos mit Data Lake Storage Gen1, um das Kontrollkästchen sichtbar zu machen. Aktivieren Sie dann das Kontrollkästchen.

LESEN, SCHREIBEN und AUSFÜHREN sind standardmäßig ausgewählt.
Klicken Sie unten auf der Seite auf Auswählen.
Wählen Sie Ausführen aus, um die Berechtigung zuzuweisen.
Wählen Sie Fertigaus.

So weisen Sie die Berechtigung auf Stammebene des HDInsight-Clusters zu:

Wählen Sie auf dem Blatt Data Lake Storage Gen1-Zugriff die Option Zugriff aus. Das Blatt Dateiberechtigungen auswählen ist standardmäßig geöffnet. Hier werden alle Speicherkonten mit Data Lake Storage Gen1 in Ihrem Abonnement aufgelistet.
Wählen Sie auf dem Blatt Dateiberechtigungen auswählen den Namen des Speicherkontos mit Data Lake Storage Gen1 aus, um dessen Inhalt anzuzeigen.
Wählen Sie den Stammordner des HDInsight-Clusterspeichers aus, indem Sie das Kontrollkästchen auf der linken Seite des Ordners aktivieren. Entsprechend dem vorherigen Screenshot ist der Ordner /clusters, den Sie beim Auswählen von Data Lake Storage Gen1 als Standardspeicher angegeben haben, der Stammordner des Clusterspeichers.
Legen Sie die Berechtigungen für den Ordner fest. LESEN, SCHREIBEN und AUSFÜHREN sind standardmäßig ausgewählt.
Klicken Sie unten auf der Seite auf Auswählen.
Klicken Sie auf Run (Ausführen).
Wählen Sie Fertigaus.

Wenn Sie Data Lake Storage Gen1 als zusätzlichen Speicher verwenden, müssen Sie die Berechtigung nur für die Ordner zuweisen, auf die Sie aus dem HDInsight-Cluster zugreifen möchten. Im folgenden Screenshot wird z. B. nur Zugriff auf den Ordner mynewfolder in einem Speicherkonto mit Data Lake Storage Gen1 gewährt.

Zuweisen von Dienstprinzipalberechtigungen zum HDInsight-Cluster

Überprüfen der Clustereinrichtung

Nachdem die Einrichtung des Clusters abgeschlossen ist, überprüfen Sie auf dem Blatt „Cluster“ Ihre Ergebnisse, indem Sie einen oder beide der folgenden Schritte ausführen:

Wenn Sie sicherstellen möchten, dass das von Ihnen angegebene Konto mit Data Lake Storage Gen1 der zugeordnete Speicher für den Cluster ist, klicken Sie im linken Bereich auf Speicherkonten.
Wenn Sie sicherstellen möchten, dass der Dienstprinzipal dem HDInsight-Cluster ordnungsgemäß zugeordnet wurde, wählen Sie im linken Bereich Data Lake Storage Gen1-Zugriff aus.

Beispiele

Nachdem Sie den Cluster mit Data Lake Storage Gen1 als Ihren Speicher eingerichtet haben, sehen Sie sich diese Beispiele an, um zu erfahren, wie Sie mithilfe von HDInsight-Cluster die Daten analysieren können, die in Data Lake Storage Gen1 gespeichert sind.

Ausführen einer Hive-Abfrage für Daten in einer Data Lake Storage Gen1-Instanz (primärer Speicher)

Verwenden Sie zum Ausführen einer Hive-Abfrage die Hive-Ansichten-Schnittstelle im Ambari-Portal. Anweisungen zum Verwenden der Hive-Ansichten mit Ambari finden Sie unter Verwenden der Hive-Ansicht mit Hadoop in HDInsight.

Wenn Sie mit Daten in einer Data Lake Storage Gen1-Instanz arbeiten, müssen einige Zeichenfolgen geändert werden.

Wenn Sie beispielsweise den Cluster verwenden, den Sie mit Data Lake Storage Gen1 als primären Speicher erstellt haben, ist der Datenpfad folgender: adl://<data_lake_storage_gen1__account_name>/azuredatalakestore.net/path/to/file. Eine Hive-Abfrage zum Erstellen einer Tabelle aus Beispieldaten, die in der Data Lake Storage Gen1-Instanz gespeichert werden, sieht wie die folgende Anweisung aus:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Beschreibungen:

adl://hdiadlsg1storage.azuredatalakestore.net/ ist der Stamm des Kontos mit Data Lake Storage Gen1.
/clusters/myhdiadlcluster ist der Stamm der Clusterdaten, die Sie beim Erstellen des Clusters angegeben haben.
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ ist der Speicherort der Beispieldatei, die Sie in der Abfrage verwenden.

Ausführen einer Hive-Abfrage für Daten in einer Data Lake Storage Gen1-Instanz (zusätzlicher Speicher)

Wenn der von Ihnen erstellte Cluster Azure Blob Storage als Standardspeicher verwendet, befinden sich die Beispieldaten nicht im Speicherkonto mit Data Lake Storage Gen1, das als zusätzlicher Speicher verwendet wird. Übertragen Sie in einem derartigen Fall die Daten zunächst aus Azure Blob Storage in das Speicherkonto mit Data Lake Storage Gen1, und führen Sie dann die Abfragen wie im Beispiel oben aus.

Informationen zum Kopieren von Daten aus Azure Blob Storage in ein Speicherkonto mit Data Lake Storage Gen1 finden Sie in den folgenden Artikeln:

Verwenden von Data Lake Storage Gen1 mit einem Spark-Cluster

Sie können einen Spark-Cluster zum Ausführen von Spark-Aufträgen für Daten verwenden, die in einer Data Lake Storage Gen1-Instanz gespeichert sind. Weitere Informationen finden Sie unter Verwenden des HDInsight Spark-Clusters, um Daten in Data Lake Storage Gen1 zu analysieren.