HDInsight-fürtök létrehozása Azure Data Lake Storage Gen1 használatával a Azure Portal

Megtudhatja, hogyan hozhat létre a Azure Portal egy HDInsight-fürtöt, amely Azure Data Lake Storage Gen1-et használja alapértelmezett tárolóként vagy további tárolóként. Bár a HDInsight-fürtök esetében nem kötelező további tárterületet használni, ajánlott az üzleti adatokat a további tárfiókokban tárolni.

Előfeltételek

Mielőtt hozzákezdene, győződjön meg arról, hogy megfelel a következő követelményeknek:

Megjegyzés

Szolgáltatásnevet csak akkor hozhat létre, ha Ön Microsoft Entra rendszergazda. A Microsoft Entra rendszergazdájának létre kell hoznia egy szolgáltatásnevet, mielőtt hdInsight-fürtöt hozhat létre Data Lake Storage Gen1. Emellett a szolgáltatásnevet egy tanúsítvánnyal kell létrehozni, a Szolgáltatásnév létrehozása tanúsítvánnyal című témakörben leírtak szerint.

HDInsight-fürt létrehozása

Ebben a szakaszban létrehoz egy HDInsight-fürtöt, amelynek alapértelmezett vagy további tárolója a Data Lake Storage Gen1. Ez a cikk csak a Data Lake Storage Gen1 konfigurálásának részével foglalkozik. Az általános fürtlétrehozási információkért és eljárásokért lásd: Hadoop-fürtök létrehozása a HDInsightban.

Fürt létrehozása Data Lake Storage Gen1 alapértelmezett tárolóként

HDInsight-fürt létrehozása Data Lake Storage Gen1 alapértelmezett tárfiókként:

  1. Jelentkezzen be az Azure Portalra.

  2. A HDInsight-fürtök létrehozásával kapcsolatos általános információkért kövesse a Fürtök létrehozása című témakört.

  3. A Tárolás panel Elsődleges tárolótípus területén válassza Azure Data Lake Storage Gen1 elemet, majd adja meg a következő adatokat:

    HDInsight-tárfiók beállításai

    • Válassza a Data Lake Store-fiók: Válasszon ki egy meglévő Data Lake Storage Gen1 fiókot. Egy meglévő Data Lake Storage Gen1 fiókra van szükség. Lásd: Előfeltételek.
    • Gyökérútvonal: Adjon meg egy elérési utat, ahol a fürtspecifikus fájlokat tárolni szeretné. A képernyőképen a /clusters/myhdiadlcluster/, amelyben a /clusters mappának léteznie kell, és a Portál létrehozza a myhdicluster mappát. A myhdicluster a fürt neve.
    • Data Lake Store-hozzáférés: Konfigurálja a hozzáférést a Data Lake Storage Gen1-fiók és a HDInsight-fürt között. Útmutatásért lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.
    • További tárfiókok: Azure-tárfiókok hozzáadása további tárfiókokként a fürthöz. További Data Lake Storage Gen1 fiókok hozzáadásához a fürtnek több Data Lake Storage Gen1 fiók adataira vonatkozó engedélyeket kell megadnia, miközben egy Data Lake Storage Gen1 fiókot konfigurál elsődleges tárolótípusként. Lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.
  4. A Data Lake Store-hozzáférésen kattintson a Kiválasztás gombra, majd folytassa a fürtlétrehozás lépéseit a Hadoop-fürtök létrehozása a HDInsightban című témakörben leírtak szerint.

Fürt létrehozása további tárolóként Data Lake Storage Gen1

Az alábbi utasítások egy HDInsight-fürtöt hoznak létre alapértelmezett tárolóként egy Azure Blob Storage-fiókkal, valamint egy tárfiókot Data Lake Storage Gen1 további tárolóként.

HDInsight-fürt létrehozása Data Lake Storage Gen1 további tárfiókként:

  1. Jelentkezzen be az Azure Portalra.

  2. A HDInsight-fürtök létrehozásával kapcsolatos általános információkért kövesse a Fürtök létrehozása című témakört.

  3. A Tárolás panel Elsődleges tároló típusa területén válassza az Azure Storage lehetőséget, majd adja meg a következő adatokat:

    A HDInsight-tárfiók beállításainak további tárterülete

    • Kiválasztási módszer – Az Azure-előfizetés részét képező tárfiók megadásához válassza a Saját előfizetések lehetőséget, majd válassza ki a tárfiókot. Az Azure-előfizetésen kívüli tárfiók megadásához válassza a Hozzáférési kulcs lehetőséget, majd adja meg a külső tárfiók adatait.

    • Alapértelmezett tároló – Használja az alapértelmezett értéket, vagy adja meg a saját nevét.

    • További tárfiókok – További Tárfiókként további Azure Storage-fiókokat adhat hozzá.

    • Data Lake Store-hozzáférés – Konfigurálja a hozzáférést a Data Lake Storage Gen1-fiók és a HDInsight-fürt között. Útmutatásért lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.

Data Lake Storage Gen1 hozzáférés konfigurálása

Ebben a szakaszban Data Lake Storage Gen1 HDInsight-fürtökről való hozzáférést konfigurálja egy Microsoft Entra szolgáltatásnév használatával.

Szolgáltatásnév megadása

A Azure Portal használhat egy meglévő szolgáltatásnevet, vagy létrehozhat egy újat.

Szolgáltatásnév létrehozása a Azure Portal:

  1. Lásd: Szolgáltatásnév és tanúsítványok létrehozása Microsoft Entra ID használatával.

Meglévő szolgáltatásnév használata a Azure Portal:

  1. A szolgáltatásnévnek tulajdonosi engedélyekkel kell rendelkeznie a Storage-fiókhoz. Lásd: A szolgáltatásnév engedélyeinek beállítása a tárfiók tulajdonosának.

  2. Válassza a Data Lake Store-hozzáférés lehetőséget.

  3. A Data Lake Storage Gen1 hozzáférési panelen válassza a Meglévő használata lehetőséget.

  4. Válassza a Szolgáltatásnév lehetőséget, majd válasszon ki egy szolgáltatásnevet.

  5. Töltse fel a kiválasztott szolgáltatásnévhez társított tanúsítványt (.pfx fájlt), majd adja meg a tanúsítvány jelszavát.

    Szolgáltatásnév hozzáadása a HDInsight-fürthöz

  6. A mappahozzáférés konfigurálásához válassza az Access lehetőséget. Lásd: Fájlengedélyek konfigurálása.

A szolgáltatásnév tulajdonosi jogosultságainak beállítása a tárfiókban

  1. A tárfiók Access Control (IAM) paneljén kattintson a Szerepkör-hozzárendelés hozzáadása elemre.
  2. A Szerepkör-hozzárendelés hozzáadása panelen válassza a Szerepkör tulajdonosként lehetőséget, majd válassza ki az egyszerű szolgáltatásnevét, és kattintson a Mentés gombra.

Fájlengedélyek konfigurálása

A konfiguráció attól függően eltérő, hogy a fiók az alapértelmezett tárként vagy egy további tárfiókként van-e használva:

  • Alapértelmezett tárolóként használva

    • engedély a Data Lake Storage Gen1 fiók gyökérszintjén
    • jogosultságot a HDInsight-fürttároló gyökérszintjén. Például az oktatóanyag korábbi részében használt /clusters mappa.
  • További tárolóként való használat

    • Engedély azokhoz a mappákhoz, ahol fájlelérésre van szükség.

Engedély hozzárendelése a tárfiókhoz Data Lake Storage Gen1 gyökérszinten:

  1. A Data Lake Storage Gen1 hozzáférési panelen válassza az Access lehetőséget. Megnyílik a Fájlengedélyek kiválasztása panel. Felsorolja az előfizetésében lévő összes tárfiókot.

  2. Vigye az egérmutatót (ne kattintson rá) a fiók nevére Data Lake Storage Gen1, hogy láthatóvá tegye a jelölőnégyzetet, majd jelölje be a jelölőnégyzetet.

    Fájlengedélyek kiválasztása

    Alapértelmezés szerint az OLVASÁS, AZ ÍRÁS ÉS a VÉGREHAJTÁS beállítás van kiválasztva.

  3. Kattintson a lap alján található Kiválasztás gombra.

  4. Az engedély hozzárendeléséhez válassza a Futtatás lehetőséget.

  5. Válassza a Kész lehetőséget.

Engedély hozzárendelése a HDInsight-fürt gyökérszintjén:

  1. A Data Lake Storage Gen1 hozzáférési panelen válassza az Access lehetőséget. Megnyílik a Fájlengedélyek kiválasztása panel. Felsorolja az előfizetésben Data Lake Storage Gen1 rendelkező összes tárfiókot.
  2. A Fájlengedélyek kiválasztása panelen válassza ki a Data Lake Storage Gen1 nevű tárfiókot a tartalmának megjelenítéséhez.
  3. Jelölje be a HDInsight-fürt tárológyökerét a mappa bal oldalán található jelölőnégyzet bejelölésével. A korábbi képernyőkép szerint a fürttároló gyökérmappája a /clusters mappa, amelyet a Data Lake Storage Gen1 alapértelmezett tárolóként való kiválasztásakor adott meg.
  4. Adja meg a mappára vonatkozó engedélyeket. Alapértelmezés szerint az olvasás, az írás és a végrehajtás mind ki van jelölve.
  5. A lap alján kattintson a Kiválasztás gombra.
  6. Válassza a Futtatás lehetőséget.
  7. Válassza a Kész lehetőséget.

Ha további tárolóként Data Lake Storage Gen1 használ, csak a HDInsight-fürtből elérni kívánt mappákhoz kell engedélyt rendelnie. Az alábbi képernyőképen például csak a mynewfolder mappához biztosít hozzáférést egy tárfiókban Data Lake Storage Gen1.

Szolgáltatásnév-engedélyek hozzárendelése a HDInsight-fürthöz

Fürtbeállítás ellenőrzése

A fürt beállítása után a fürt paneljén ellenőrizze az eredményeket az alábbi lépések egyikével vagy mindkettővel:

  • Ha ellenőrizni szeretné, hogy a fürt társított tárolója a megadott Data Lake Storage Gen1 rendelkező fiók-e, válassza a Tárfiókok lehetőséget a bal oldali panelen.

    Társított tároló ellenőrzése

  • Ha ellenőrizni szeretné, hogy a szolgáltatásnév megfelelően van-e társítva a HDInsight-fürthöz, válassza Data Lake Storage Gen1 hozzáférést a bal oldali panelen.

    Szolgáltatásnév ellenőrzése

Példák

Miután beállította a fürtöt a Data Lake Storage Gen1 tárolóként, tekintse meg az alábbi példákat arra, hogyan elemezheti a HDInsight-fürtöt a Data Lake Storage Gen1 tárolt adatok elemzéséhez.

Hive-lekérdezés futtatása Data Lake Storage Gen1 adataival (elsődleges tárolóként)

Hive-lekérdezés futtatásához használja az Ambari portál Hive-nézetek felületét. Az Ambari Hive-nézetek használatáról a Hive-nézet használata a Hadooptal a HDInsightban című témakörben olvashat.

Ha egy Data Lake Storage Gen1 adataival dolgozik, néhány sztringet módosítani kell.

Ha például a Data Lake Storage Gen1 elsődleges tárolóként létrehozott fürtöt használja, az adatok elérési útja a következő: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. A Data Lake Storage Gen1 tárolt mintaadatokból táblát létrehozó Hive-lekérdezés a következő utasításhoz hasonlóan néz ki:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Leírások:

  • adl://hdiadlsg1storage.azuredatalakestore.net/a fiók gyökere a Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster a fürt létrehozásakor megadott fürtadatok gyökere.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ a lekérdezésben használt mintafájl helye.

Hive-lekérdezés futtatása Data Lake Storage Gen1 adataival (további tárolóként)

Ha a létrehozott fürt a Blob Storage-t használja alapértelmezett tárolóként, a mintaadatok nem találhatók meg a tárfiókban, Data Lake Storage Gen1, amelyet további tárolóként használnak. Ilyen esetben először vigye át az adatokat a Blob Storage-ból a tárfiókba a Data Lake Storage Gen1, majd futtassa a lekérdezéseket az előző példában látható módon.

Az adatok Blob Storage-ból tárfiókba való másolásáról Data Lake Storage Gen1 az alábbi cikkekben olvashat:

Data Lake Storage Gen1 használata Spark-fürttel

Spark-fürt használatával Spark-feladatokat futtathat egy Data Lake Storage Gen1 tárolt adatokon. További információ: Adatok elemzése a HDInsight Spark-fürtön Data Lake Storage Gen1.

Data Lake Storage Gen1 használata Storm-topológiában

Lásd még