HDInsight-fürt létrehozása Azure Data Lake Storage Gen1 használatával az Azure Resource Manager-sablonnal

Megtudhatja, hogyan konfigurálhat további tárolóként egy HDInsight-fürtöt Azure PowerShell Azure Data Lake Storage Gen1 használatával.

Támogatott fürttípusok esetén a Data Lake Storage Gen1 használható alapértelmezett tárolóként vagy további tárfiókként. Ha Data Lake Storage Gen1 további tárolóként használják, a fürtök alapértelmezett tárfiókja továbbra is az Azure Blob Storage (WASB) lesz, és a fürthöz kapcsolódó fájlok (például naplók stb.) továbbra is az alapértelmezett tárolóba lesznek írva, míg a feldolgozni kívánt adatok egy Data Lake Storage Gen1-fiókban tárolhatók. A Data Lake Storage Gen1 további tárfiókként való használata nem befolyásolja a teljesítményt vagy a fürtből a tárolóba való olvasás/írás képességét.

A DATA LAKE STORAGE GEN1 használata a HDInsight-fürttárolóhoz

Íme néhány fontos szempont a HDInsight Data Lake Storage Gen1 való használatához:

  • A HDInsight-fürtök létrehozása Data Lake Storage Gen1 hozzáféréssel, mivel az alapértelmezett tároló a HDInsight 3.5-ös és 3.6-os verziójához érhető el.

  • Lehetőség a Data Lake Storage Gen1 hozzáféréssel rendelkező HDInsight-fürtök létrehozására, mivel további tárterület áll rendelkezésre a HDInsight 3.2-s, 3.4-ös, 3.5-ös és 3.6-os verzióihoz.

Ebben a cikkben egy Hadoop-fürtöt építünk ki további tárolóként Data Lake Storage Gen1. A Hadoop-fürt alapértelmezett tárolóként Data Lake Storage Gen1 használatával történő létrehozásáról a HDInsight-fürt létrehozása Data Lake Storage Gen1 Azure Portal használatával című témakörben olvashat.

Előfeltételek

Megjegyzés

Javasoljuk, hogy az Azure-ral való interakcióhoz az Azure Az PowerShell-modult használja. Az első lépésekhez tekintse meg az Azure PowerShell telepítését ismertető szakaszt. Az Az PowerShell-modulra történő migrálás részleteiről lásd: Az Azure PowerShell migrálása az AzureRM modulból az Az modulba.

Az oktatóanyag elkezdéséhez az alábbiakkal kell rendelkeznie:

  • Egy Azure-előfizetés. Lásd: Ingyenes Azure-fiók létrehozása.

  • Az Azure PowerShell 1.0-s vagy újabb verziója. Lásd: How to install and configure Azure PowerShell (Az Azure PowerShell telepítése és konfigurálása).

  • Microsoft Entra szolgáltatásnév. Az oktatóanyag lépései bemutatja, hogyan hozhat létre szolgáltatásnevet Microsoft Entra ID. A szolgáltatásnév létrehozásához azonban Microsoft Entra rendszergazdának kell lennie. Ha Ön Microsoft Entra rendszergazda, kihagyhatja ezt az előfeltételt, és folytathatja az oktatóanyaggal.

    Ha Ön nem Microsoft Entra rendszergazda, nem fogja tudni végrehajtani a szolgáltatásnév létrehozásához szükséges lépéseket. Ilyen esetben a Microsoft Entra rendszergazdának először létre kell hoznia egy szolgáltatásnevet, mielőtt létrehozhat egy HDInsight-fürtöt Data Lake Storage Gen1. Emellett a szolgáltatásnevet tanúsítvány használatával kell létrehozni, az egyszerű szolgáltatás létrehozása tanúsítvánnyal című cikkben leírtak szerint.

HDInsight-fürt létrehozása Data Lake Storage Gen1

A Resource Manager sablon és a sablon használatának előfeltételei a GitHubon érhetők el a HDInsight Linux-fürt üzembe helyezése új Data Lake Storage Gen1 című témakörben. A hivatkozáson található utasításokat követve hozzon létre egy HDInsight-fürtöt Data Lake Storage Gen1 további tárolóként.

A fent említett hivatkozáson található utasításokhoz PowerShell szükséges. Mielőtt elkezdené ezeket az utasításokat, győződjön meg arról, hogy bejelentkezik az Azure-fiókjába. Nyisson meg egy új Azure PowerShell ablakot az asztalról, és írja be a következő kódrészleteket. Amikor a rendszer kéri a bejelentkezést, győződjön meg arról, hogy az előfizetés rendszergazdájaként/tulajdonosaként jelentkezik be:

# Log in to your Azure account
Connect-AzAccount

# List all the subscriptions associated to your account
Get-AzSubscription

# Select a subscription
Set-AzContext -SubscriptionId <subscription ID>

A sablon az alábbi erőforrástípusokat helyezi üzembe:

Mintaadatok feltöltése Data Lake Storage Gen1

A Resource Manager sablon létrehoz egy új tárfiókot Data Lake Storage Gen1, és társítja azt a HDInsight-fürthöz. Most fel kell töltenie néhány mintaadatot a Data Lake Storage Gen1. Az oktatóanyag későbbi részében szüksége lesz ezekre az adatokra egy olyan HDInsight-fürt feladatainak futtatásához, amelyek a tárfiók adataihoz férnek hozzá Data Lake Storage Gen1. Az adatok feltöltésével kapcsolatos utasításokért lásd: Fájl feltöltése Data Lake Storage Gen1. Ha feltölthető mintaadatokra van szüksége, használhatja az Azure Data Lake Git-tárában található Ambulance Data mappát.

Releváns ACL-ek beállítása a mintaadatokon

Annak érdekében, hogy a feltöltött mintaadatok elérhetők legyenek a HDInsight-fürtről, meg kell győződnie arról, hogy a HDInsight-fürt és Data Lake Storage Gen1 közötti identitáslétrehozáshoz használt Microsoft Entra alkalmazásnak hozzáféréssel kell rendelkeznie a elérni kívánt fájlhoz/mappához. Ehhez hajtsa végre az alábbi lépéseket.

  1. Keresse meg a HDInsight-fürthöz társított Microsoft Entra alkalmazás nevét és a tárfiókot a Data Lake Storage Gen1. A név keresésének egyik módja, ha megnyitja a Resource Manager sablonnal létrehozott HDInsight-fürt panelt, kattintson a Fürt Microsoft Entra identitás fülre, és keresse meg a Szolgáltatásnév megjelenítendő név értékét.
  2. Most adjon hozzáférést ehhez a Microsoft Entra alkalmazáshoz azon a fájlon/mappán, amelyhez a HDInsight-fürtből hozzá szeretne férni. Ha a megfelelő ACL-eket szeretné beállítani az Data Lake Storage Gen1 fájljában/mappájában, olvassa el az Adatok biztonságossá tétele Data Lake Storage Gen1 című cikket.

Tesztfeladatok futtatása a HDInsight-fürtön a Data Lake Storage Gen1 használatához

Miután konfigurált egy HDInsight-fürtöt, tesztfeladatokat futtathat a fürtön annak teszteléséhez, hogy a HDInsight-fürt hozzáfér-e Data Lake Storage Gen1. Ehhez futtatunk egy Hive-mintafeladatot, amely létrehoz egy táblát a tárfiókba korábban feltöltött mintaadatokkal Data Lake Storage Gen1.

Ebben a szakaszban az SSH-t egy HDInsight Linux-fürtön futtatja, és futtatja a Hive-mintalekérdezéseket. Windows-ügyfél használata esetén a PuTTY használatát javasoljuk, amely innen tölthető le https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html: .

További információ a PuTTY használatáról: Az SSH használata a HDInsighton futó Linux-alapú Hadooppal Windowsról.

  1. A csatlakozás után indítsa el a Hive CLI-t a következő paranccsal:

    hive
    
  2. A parancssori felület használatával adja meg a következő utasításokat, hogy létrehozhasson egy járművek nevű új táblát a Data Lake Storage Gen1 mintaadataival:

    DROP TABLE vehicles;
    CREATE EXTERNAL TABLE vehicles (str string) LOCATION 'adl://<mydatalakestoragegen1>.azuredatalakestore.net:443/';
    SELECT * FROM vehicles LIMIT 10;
    

    A következőhöz hasonló kimenetnek kell megjelennie:

    1,1,2014-09-14 00:00:03,46.81006,-92.08174,51,S,1
    1,2,2014-09-14 00:00:06,46.81006,-92.08174,13,NE,1
    1,3,2014-09-14 00:00:09,46.81006,-92.08174,48,NE,1
    1,4,2014-09-14 00:00:12,46.81006,-92.08174,30,W,1
    1,5,2014-09-14 00:00:15,46.81006,-92.08174,47,S,1
    1,6,2014-09-14 00:00:18,46.81006,-92.08174,9,S,1
    1,7,2014-09-14 00:00:21,46.81006,-92.08174,53,N,1
    1,8,2014-09-14 00:00:24,46.81006,-92.08174,63,SW,1
    1,9,2014-09-14 00:00:27,46.81006,-92.08174,4,NE,1
    1,10,2014-09-14 00:00:30,46.81006,-92.08174,31,N,1
    

Hozzáférés Data Lake Storage Gen1 HDFS-parancsokkal

Miután konfigurálta a HDInsight-fürtöt a Data Lake Storage Gen1 használatára, a HDFS-felület parancsaival hozzáférhet az áruházhoz.

Ebben a szakaszban az SSH-t egy HDInsight Linux-fürtbe irányítja, és futtatja a HDFS-parancsokat. Windows-ügyfél használata esetén a PuTTY használatát javasoljuk, amely innen tölthető le https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html: .

További információ a PuTTY használatáról: Az SSH használata a HDInsighton futó Linux-alapú Hadooppal Windowsról.

A csatlakozás után a következő HDFS-fájlrendszer paranccsal listázhatja a tárfiókban lévő fájlokat a Data Lake Storage Gen1.

hdfs dfs -ls adl://<storage account with Data Lake Storage Gen1 name>.azuredatalakestore.net:443/

Ennek a fájlnak az Data Lake Storage Gen1 korábban feltöltött fájlnak kell szerepelnie.

15/09/17 21:41:15 INFO web.CaboWebHdfsFileSystem: Replacing original urlConnectionFactory with org.apache.hadoop.hdfs.web.URLConnectionFactory@21a728d6
Found 1 items
-rwxrwxrwx   0 NotSupportYet NotSupportYet     671388 2015-09-16 22:16 adl://mydatalakestoragegen1.azuredatalakestore.net:443/mynewfolder

Az paranccsal feltölthet hdfs dfs -put néhány fájlt Data Lake Storage Gen1, majd a paranccsal hdfs dfs -ls ellenőrizheti, hogy a fájlok feltöltése sikeresen megtörtént-e.

Következő lépések