HDInsight-clusters maken met Azure Data Lake Storage Gen1 met behulp van de Azure Portal

Meer informatie over het gebruik van de Azure Portal om een HDInsight-cluster te maken met Azure Data Lake Storage Gen1 als standaardopslag of een extra opslag. Hoewel extra opslag optioneel is voor een HDInsight-cluster, is het raadzaam om uw zakelijke gegevens op te slaan in de extra opslagaccounts.

Vereisten

Voordat u begint, moet u ervoor zorgen dat u aan de volgende vereisten voldoet:

  • Een Azure-abonnement. Ga naar Gratis proefversie van Azure downloaden.
  • Een Azure Data Lake Storage Gen1-account. Volg de instructies in Aan de slag met Azure Data Lake Storage Gen1 met behulp van de Azure Portal. U moet ook een hoofdmap voor het account maken. In dit artikel wordt een hoofdmap met de naam /clusters gebruikt.
  • een Microsoft Entra service-principal. Deze handleiding bevat instructies voor het maken van een service-principal in Microsoft Entra ID. Als u echter een service-principal wilt maken, moet u een Microsoft Entra-beheerder zijn. Als u een beheerder bent, kunt u deze vereiste overslaan en doorgaan.

Notitie

U kunt alleen een service-principal maken als u een Microsoft Entra-beheerder bent. De Microsoft Entra-beheerder moet een service-principal maken voordat u een HDInsight-cluster met Data Lake Storage Gen1 kunt maken. De service-principal moet ook worden gemaakt met een certificaat, zoals beschreven in Een service-principal maken met certificaat.

Een HDInsight-cluster maken

In deze sectie maakt u een HDInsight-cluster met Data Lake Storage Gen1 als de standaardopslag of de extra opslag. Dit artikel is alleen gericht op het gedeelte van het configureren van Data Lake Storage Gen1. Zie Hadoop-clusters maken in HDInsight voor algemene informatie en procedures voor het maken van clusters.

Een cluster maken met Data Lake Storage Gen1 als standaardopslag

Een HDInsight-cluster maken met een Data Lake Storage Gen1 als standaardopslagaccount:

  1. Meld u aan bij de Azure-portal.

  2. Volg Clusters maken voor algemene informatie over het maken van HDInsight-clusters.

  3. Selecteer op de blade Opslag onder Primair opslagtype de optie Azure Data Lake Storage Gen1 en voer de volgende gegevens in:

    Instellingen voor HDInsight-opslagaccount

    • Data Lake Store-account selecteren: selecteer een bestaand Data Lake Storage Gen1-account. Er is een bestaand Data Lake Storage Gen1-account vereist. Zie Vereisten.
    • Hoofdpad: voer een pad in waar de clusterspecifieke bestanden moeten worden opgeslagen. In de schermopname is het /clusters/myhdiadlcluster/, waarin de map /clusters moet bestaan en de portal de map myhdicluster maakt. Myhdicluster is de clusternaam.
    • Toegang tot Data Lake Store: configureer de toegang tussen het Data Lake Storage Gen1-account en het HDInsight-cluster. Zie Data Lake Storage Gen1 toegang configureren voor instructies.
    • Extra opslagaccounts: Voeg Azure-opslagaccounts toe als extra opslagaccounts voor het cluster. Als u extra Data Lake Storage Gen1-accounts wilt toevoegen, moet u het cluster machtigingen geven voor gegevens in meer Data Lake Storage Gen1 accounts tijdens het configureren van een Data Lake Storage Gen1-account als het primaire opslagtype. Zie Data Lake Storage Gen1-toegang configureren.
  4. Klik in de Data Lake Store-toegang op Selecteren en ga door met het maken van clusters, zoals beschreven in Hadoop-clusters maken in HDInsight.

Een cluster maken met Data Lake Storage Gen1 als extra opslag

Met de volgende instructies maakt u een HDInsight-cluster met een Azure Blob Storage-account als standaardopslag en een opslagaccount met Data Lake Storage Gen1 als extra opslag.

Een HDInsight-cluster maken met Data Lake Storage Gen1 als extra opslagaccount:

  1. Meld u aan bij de Azure-portal.

  2. Volg Clusters maken voor algemene informatie over het maken van HDInsight-clusters.

  3. Selecteer op de blade Opslag onder Primair opslagtype de optie Azure Storage en voer de volgende gegevens in:

    Instellingen voor HDInsight-opslagaccount extra opslag

    • Selectiemethode : als u een opslagaccount wilt opgeven dat deel uitmaakt van uw Azure-abonnement, selecteert u Mijn abonnementen en vervolgens het opslagaccount. Als u een opslagaccount wilt opgeven dat zich buiten uw Azure-abonnement bevindt, selecteert u Toegangssleutel en geeft u vervolgens de informatie op voor het externe opslagaccount.

    • Standaardcontainer : gebruik de standaardwaarde of geef uw eigen naam op.

    • Extra opslagaccounts : voeg meer Azure-opslagaccounts toe als extra opslag.

    • Toegang tot Data Lake Store: configureer de toegang tussen het Data Lake Storage Gen1-account en het HDInsight-cluster. Zie Data Lake Storage Gen1 toegang configureren voor instructies.

Data Lake Storage Gen1 toegang configureren

In deze sectie configureert u Data Lake Storage Gen1 toegang vanuit HDInsight-clusters met behulp van een Microsoft Entra-service-principal.

Een service-principal opgeven

Vanuit de Azure Portal kunt u een bestaande service-principal gebruiken of een nieuwe maken.

Een service-principal maken op basis van de Azure Portal:

  1. Zie Service-principal en certificaten maken met behulp van Microsoft Entra ID.

Een bestaande service-principal uit de Azure Portal gebruiken:

  1. Service-principal moet eigenaarsmachtigingen hebben voor het opslagaccount. Zie Machtigingen instellen voor de service-principal als eigenaar van het opslagaccount.

  2. Selecteer Data Lake Store-toegang.

  3. Selecteer bestaande gebruiken op de blade Data Lake Storage Gen1 toegang.

  4. Selecteer Service-principal en selecteer vervolgens een service-principal.

  5. Upload het certificaat (PFX-bestand) dat is gekoppeld aan de geselecteerde service-principal en voer vervolgens het certificaatwachtwoord in.

    Service-principal toevoegen aan HDInsight-cluster

  6. Selecteer Toegang om de maptoegang te configureren. Zie Bestandsmachtigingen configureren.

Machtigingen instellen voor de service-principal als eigenaar voor het opslagaccount

  1. Klik op de blade Access Control (IAM) van het opslagaccount op Een roltoewijzing toevoegen.
  2. Selecteer op de blade Een roltoewijzing toevoegen de optie Rol als 'eigenaar', selecteer de SPN en klik op Opslaan.

Bestandsmachtigingen configureren

De configuratie verschilt, afhankelijk van of het account wordt gebruikt als de standaardopslag of een extra opslagaccount:

  • Wordt gebruikt als standaardopslag

    • machtiging op het hoofdniveau van het Data Lake Storage Gen1-account
    • machtiging op het hoofdniveau van de HDInsight-clusteropslag. Bijvoorbeeld de map /clusters die eerder in de zelfstudie is gebruikt.
  • Als extra opslag gebruiken

    • Machtiging voor de mappen waar u bestandstoegang nodig hebt.

Machtigingen toewijzen aan het opslagaccount met Data Lake Storage Gen1 op hoofdniveau:

  1. Selecteer op de blade Data Lake Storage Gen1 toegangde optie Toegang. De blade Bestandsmachtigingen selecteren wordt geopend. Alle opslagaccounts in uw abonnement worden weergegeven.

  2. Plaats de muisaanwijzer op de naam van het account met Data Lake Storage Gen1 om het selectievakje zichtbaar te maken en schakel het selectievakje in.

    Bestandsmachtigingen selecteren

    Standaard zijn LEZEN, SCHRIJVEN EN UITVOEREN geselecteerd.

  3. Klik onderaan de pagina op Selecteren .

  4. Selecteer Uitvoeren om machtigingen toe te wijzen.

  5. Selecteer Gereed.

Machtigingen toewijzen op het hoofdniveau van het HDInsight-cluster:

  1. Selecteer op de blade Data Lake Storage Gen1 toegangde optie Toegang. De blade Bestandsmachtigingen selecteren wordt geopend. Hierin worden alle opslagaccounts met Data Lake Storage Gen1 in uw abonnement weergegeven.
  2. Selecteer op de blade Bestandsmachtigingen selecteren het opslagaccount met Data Lake Storage Gen1 naam om de inhoud ervan weer te geven.
  3. Selecteer de hoofdmap van de HDInsight-clusteropslag door het selectievakje aan de linkerkant van de map in te schakelen. Volgens de schermafbeelding eerder is de hoofdmap van de clusteropslag de map /clusters die u hebt opgegeven tijdens het selecteren van Data Lake Storage Gen1 als standaardopslag.
  4. Stel de machtigingen voor de map in. Standaard zijn lezen, schrijven en uitvoeren geselecteerd.
  5. Klik onderaan de pagina op Selecteren .
  6. Selecteer Uitvoeren.
  7. Selecteer Gereed.

Als u Data Lake Storage Gen1 als extra opslag gebruikt, moet u alleen machtigingen toewijzen voor de mappen die u wilt openen vanuit het HDInsight-cluster. In de onderstaande schermafbeelding geeft u bijvoorbeeld alleen toegang tot de map mynewfolder in een opslagaccount met Data Lake Storage Gen1.

Service-principalmachtigingen toewijzen aan het HDInsight-cluster

Clusterinstallatie controleren

Nadat de clusterinstallatie is voltooid, controleert u op de clusterblade uw resultaten door een van de volgende stappen of beide uit te voeren:

  • Als u wilt controleren of de gekoppelde opslag voor het cluster het account is met Data Lake Storage Gen1 dat u hebt opgegeven, selecteert u Opslagaccounts in het linkerdeelvenster.

    Gekoppelde opslag controleren

  • Als u wilt controleren of de service-principal correct is gekoppeld aan het HDInsight-cluster, selecteert u Data Lake Storage Gen1 toegang in het linkerdeelvenster.

    Service-principal controleren

Voorbeelden

Nadat u het cluster hebt ingesteld met Data Lake Storage Gen1 als opslag, bekijkt u deze voorbeelden van het gebruik van een HDInsight-cluster om de gegevens te analyseren die zijn opgeslagen in Data Lake Storage Gen1.

Een Hive-query uitvoeren op gegevens in een Data Lake Storage Gen1 (als primaire opslag)

Als u een Hive-query wilt uitvoeren, gebruikt u de Interface hive-weergaven in de Ambari-portal. Zie De Hive-weergave gebruiken met Hadoop in HDInsight voor instructies over het gebruik van Ambari Hive-weergaven.

Wanneer u met gegevens in een Data Lake Storage Gen1 werkt, moet u enkele tekenreeksen wijzigen.

Als u bijvoorbeeld het cluster gebruikt dat u hebt gemaakt met Data Lake Storage Gen1 als primaire opslag, is het pad naar de gegevens: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Een Hive-query voor het maken van een tabel op basis van voorbeeldgegevens die zijn opgeslagen in de Data Lake Storage Gen1 ziet er ongeveer als volgt uit:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Beschrijvingen:

  • adl://hdiadlsg1storage.azuredatalakestore.net/is de hoofdmap van het account met Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster is de hoofdmap van de clustergegevens die u hebt opgegeven tijdens het maken van het cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ is de locatie van het voorbeeldbestand dat u in de query hebt gebruikt.

Een Hive-query uitvoeren op gegevens in een Data Lake Storage Gen1 (als extra opslag)

Als het cluster dat u hebt gemaakt blobopslag als standaardopslag gebruikt, zijn de voorbeeldgegevens niet opgenomen in het opslagaccount met Data Lake Storage Gen1 die wordt gebruikt als extra opslag. In een dergelijk geval moet u eerst de gegevens van Blob Storage overbrengen naar het opslagaccount met Data Lake Storage Gen1 en vervolgens de query's uitvoeren, zoals in het vorige voorbeeld wordt weergegeven.

Zie de volgende artikelen voor informatie over het kopiëren van gegevens uit Blob Storage naar een opslagaccount met Data Lake Storage Gen1:

Data Lake Storage Gen1 gebruiken met een Spark-cluster

U kunt een Spark-cluster gebruiken om Spark-taken uit te voeren op gegevens die zijn opgeslagen in een Data Lake Storage Gen1. Zie HDInsight Spark-cluster gebruiken om gegevens te analyseren in Data Lake Storage Gen1 voor meer informatie.

Data Lake Storage Gen1 gebruiken in een Storm-topologie

Zie ook