A Data Lake Tools for Visual Studio használata az Azure HDInsighthoz való csatlakozáshoz és Apache Hive-lekérdezések futtatásához

Megtudhatja, hogyan használhatja a Microsoft Azure Data Lake-t és a Stream Analytics Tools for Visual Studiót (Data Lake Tools). Az eszközzel csatlakozhat apache Hadoop-fürtökhöz az Azure HDInsightban , és Hive-lekérdezéseket küldhet.

A HDInsight használatával kapcsolatos további információkért lásd a HDInsight használatának első lépéseit.

A Data Lake Tools for Visual Studio mind az Azure Data Lake Analytics, mind a HDInsight eléréséhez használható. A Data Lake Tools eszközökkel kapcsolatos információkért lásd: U-SQL-szkriptek fejlesztése Data Lake Tools for Visual Studio használatával.

Előfeltételek

A cikk elvégzéséhez és a Data Lake Tools for Visual Studio használatához a következő elemekre van szüksége:

A Data Lake Tools for Visual Studio telepítése

A Data Lake Tools Visual Studio-verzióhoz való telepítéséhez kövesse a megfelelő utasításokat:

  • Visual Studio 2017 vagy Visual Studio 2019 esetén:

    A Visual Studio telepítése során győződjön meg arról, hogy tartalmazza az Azure fejlesztési számítási feladatát, vagy az adattárolási és feldolgozási számítási feladatot.

    Meglévő Visual Studio-telepítések esetén lépjen az IDE menüsávra, és válassza az Eszközök lekérése>eszközök és szolgáltatások lehetőséget a Visual Studio Installer megnyitásához. A Számítási feladatok lapon válassza ki legalább az Azure-beli fejlesztési számítási feladatot (a Web > Cloud alatt). Vagy válassza ki az adattárolási és feldolgozási számítási feladatot (az Egyéb eszközök csoportban).

    Workload selection, Visual Studio Installer.

  • Visual Studio 2015 esetén:

    Töltse le a Data Lake Toolst. Válassza ki a Data Lake Tools azon verzióját, amely megfelel a Visual Studio verziójának.

A Data Lake Tools for Visual Studio frissítése

Ezután frissítse a Data Lake Toolst a legújabb verzióra.

  1. Nyissa meg a Visual Studiót.

  2. A Start ablakban válassza a Folytatás kód nélkül lehetőséget.

  3. A Visual Studio IDE menüsávon válassza a Bővítmények>kezelése bővítményeket.

  4. A Bővítmények kezelése párbeszédpanelen bontsa ki a Frissítések csomópontot.

  5. Ha az elérhető frissítések listája tartalmazza az Azure Data Lake-t és a Stream Analitikus eszközöket, válassza ki. Ezután válassza a Frissítés gombot. A Letöltés és telepítés párbeszédpanel megjelenése és eltűnése után a Visual Studio hozzáadja az Azure Data Lake és a Stream Analitikus eszközök bővítményt a frissítési ütemezéshez.

  6. Zárja be az összes Visual Studio-ablakot. Megjelenik a VSIX Installer párbeszédpanel.

  7. Válassza a Licenc lehetőséget a licencfeltételek elolvasásához, majd a Bezárás gombra kattintva térjen vissza a VSIX Installer párbeszédpanelre.

  8. Válassza a Módosítás lehetőséget. Megkezdődik a bővítményfrissítés telepítése. Egy idő után a párbeszédpanel megváltozik, és azt jelzi, hogy végzett a módosításokkal. Válassza a Bezárás lehetőséget, majd indítsa újra a Visual Studiót a telepítés befejezéséhez.

Feljegyzés

Csak a Data Lake Tools 2.3.0.0-s és újabb verziói támogatják az interaktív lekérdezési fürtökhöz való csatlakozást és az interaktív Hive-lekérdezések futtatását.

Csatlakozás Azure-előfizetésekhez

A Data Lake Tools for Visual Studio használatával csatlakozhat a HDInsight-fürtökhöz, elvégezhet néhány alapvető felügyeleti műveletet, és Hive-lekérdezéseket futtathat.

Feljegyzés

Az általános Hadoop-fürthöz való csatlakozással kapcsolatos információkért lásd : Hive-lekérdezések írása és elküldése a Visual Studióval.

Csatlakozás Azure-előfizetéshez

Csatlakozás az Azure-előfizetéshez:

  1. Nyissa meg a Visual Studiót.

  2. A Start ablakban válassza a Folytatás kód nélkül lehetőséget.

  3. Az IDE menüsávon válassza a Kiszolgálókezelő megtekintése lehetőséget>.

  4. A Server Explorerben kattintson a jobb gombbal az Azure-ra, válassza a Microsoft Azure-előfizetés Csatlakozás lehetőséget, és fejezze be a hitelesítési folyamatot. A Kiszolgálókezelőben bontsa ki az Azure>HDInsightot a meglévő HDInsight-fürtök listájának megtekintéséhez.

  5. Ha nincs fürtje, hozzon létre egyet az Azure Portal, az Azure PowerShell vagy a HDInsight SDK használatával. További információ: Fürtök beállítása a HDInsightban.

    HDInsight cluster list, Server Explorer, Visual Studio.

  6. Bontson ki egy HDInsight-fürtöt. A fürt hive-adatbázisok csomópontjait tartalmazza. Emellett egy alapértelmezett tárfiókot, minden további társított tárfiókot és Hadoop szolgáltatásnaplót. Ennél jobban is kibonthatja az elemeket.

Miután csatlakozott az Azure-előfizetéshez, végrehajthatja a következő feladatokat.

Csatlakozás az Azure-ba a Visual Studióból

Csatlakozás az Azure Portalhoz a Visual Studióból:

  1. A Server Explorerben bontsa ki az Azure>HDInsightot, és válassza ki a fürtöt.

  2. Kattintson a jobb gombbal egy HDInsight-fürtre, és válassza a Fürt kezelése lehetőséget az Azure Portalon.

Kérdések és visszajelzések küldése a Visual Studióból

Kérdések feltevése és visszajelzés küldése a Visual Studióból:

  1. A Kiszolgálókezelőben válassza az Azure>HDInsightot.

  2. Kattintson a jobb gombbal a HDInsightra, és válassza az MSDN fórumot a kérdések feltevéséhez, vagy visszajelzést ad.

Feljegyzés

Jelenleg az egyetlen HDInsight-fürttípus, amelyre hivatkozhat, hive típusú.

HDInsight-fürt csatolása:

  1. Kattintson a jobb gombbal a HDInsight elemre, majd válassza a HDInsight-fürt csatolása lehetőséget a HDInsight-fürt csatolása párbeszédpanel megjelenítéséhez.

  2. Adjon meg egy Csatlakozás ion URL-címet az űrlaponhttps://CLUSTERNAME.azurehdinsight.net. Amikor egy másik mezőre lép, a fürt neve automatikusan kitölti az URL-cím fürtnév részét. Ezután adja meg a felhasználónevet és a jelszót, majd válassza a Tovább gombot.

    Link a cluster, HDInsight, Visual Studio.

  3. Válassza a Befejezés lehetőséget. Ha a fürt csatolása sikeres, akkor a fürt a HDInsight csomópont alatt lesz felsorolva .

Csatolt fürt frissítéséhez kattintson a jobb gombbal a fürtre, és válassza a Szerkesztés parancsot. Ezután frissítheti a fürt adatait.

Edit a linked cluster, HDInsight, Visual Studio.

Kapcsolt erőforrások vizsgálata

A Server Explorer eszközből láthatja az alapértelmezett tárfiókot és az összes kapcsolt tárfiókot. Ha kibontja az alapértelmezett tárfiókot, láthatja a tárfiókon lévő tárolókat. Az alapértelmezett tárfiók és az alapértelmezett tároló meg van jelölve.

Data Lake Tools for Visual Studio linked resources in Server Explorer.

Kattintson a jobb gombbal egy tárolóra, és válassza a Tároló megtekintése lehetőséget a tároló tartalmának megtekintéséhez. A tároló megnyitása után az eszköztár gombjaival frissítheti a tartalomlistát, feltöltheti a blobot, törölheti a kijelölt blobokat, megnyithatja a blobot, és letöltheti a kijelölt blobokat (Mentés másként).

Container list and blob operations, HDInsight cluster, Visual Studio.

Interaktív Apache Hive-lekérdezések futtatása

Az Apache Hive egy Hadoop-alapú adattárház-infrastruktúra. A Hive adatösszegzéseket, lekérdezéseket és elemzéseket biztosít. A Data Lake Tools for Visual Studio segítségével Hive-lekérdezéseket futtathat a Visual Studióból. További információ a Hive-ről: Mi az az Apache Hive és a HiveQL az Azure HDInsightban?

Az Azure HDInsight interaktív lekérdezése az Apache Hive 2.1-ben az LLAP-on futó Hive-t használja. Az interaktív lekérdezés interaktivitást biztosít az összetett, adattárház stílusú lekérdezésekhez nagy méretű, tárolt adathalmazokon. A Hive-lekérdezések interaktív lekérdezéseken való futtatása sokkal gyorsabb, mint a hagyományos Hive-kötegelt feladatok.

Feljegyzés

Interaktív Hive-lekérdezéseket csak akkor futtathat, ha kapcsolódik egy HDInsight interaktív lekérdezési fürthöz.

A Data Lake Tools for Visual Studio használatával is megtekintheti a Hive-feladatok tartalmát. A Data Lake Tools for Visual Studio begyűjti és a felszínre hozza bizonyos Hive-feladatok YARN-naplóit.

A Kiszolgálókezelőben válassza az Azure>HDInsightot, és válassza ki a fürtöt. Ez a csomópont a Kiszolgálókezelőben a követendő szakaszok kiindulópontja.

A hivesampletable megtekintése

Minden HDInsight-fürtnek van egy alapértelmezett Hive-mintatáblája.hivesampletable

A fürtben válassza a Hive Databases>alapértelmezett>hivesampletable elemét.

  • A hivesampletable séma megtekintése:

    Bontsa ki a hivesampletable elemet. Megjelennek az hivesampletable oszlopok nevei és adattípusai.

  • Az hivesampletable adatok megtekintése:

    Kattintson a jobb gombbal a hivesampletable parancsra, és válassza a Felső 100 sor megtekintése lehetőséget. A 100 találat listája megjelenik a Hive Tábla: hivesampletable ablakban. Ez a művelet egyenértékű az alábbi Hive-lekérdezés Hive ODBC-illesztőprogram használatával történő futtatásával:

    SELECT * FROM hivesampletable LIMIT 100

    A sorok számát a Sorok számának módosításával szabhatja testre. A legördülő listából 50, 100, 200 vagy 1000 sort választhat.

Hive táblák létrehozása

Hive-tábla létrehozásához használhatja a grafikus felhasználói felületet vagy a Hive-lekérdezéseket. A Hive-lekérdezések használatáról további információt a Hive-lekérdezések létrehozása és futtatása című témakörben talál.

  1. A fürtben válassza az alapértelmezett Hive-adatbázisok>lehetőséget.

  2. Kattintson a jobb gombbal az alapértelmezett elemre, és válassza a Tábla létrehozása parancsot.

  3. Konfigurálja a táblát.

  4. Válassza a Tábla létrehozása gombot a feladat elküldéséhez, amely létrehozza az új Hive-táblát.

    Create Table window, Hive, HDInsight cluster, Visual Studio.

Hive-lekérdezések létrehozása és futtatása

Hive-lekérdezések létrehozására és futtatására két lehetősége van:

  • Alkalmi lekérdezések létrehozása
  • Hive alkalmazás létrehozása

Alkalmi lekérdezés létrehozása

Alkalmi lekérdezés létrehozása és futtatása:

  1. Kattintson a jobb gombbal arra a fürtre, ahol futtatni szeretné a lekérdezést, és válassza a Hive-lekérdezés írása lehetőséget.

  2. Adjon meg egy Hive-lekérdezést.

    A Hive szerkesztője támogatja az IntelliSense-t. A Data Lake Tools for Visual Studio támogatja a távoli metaadatok betöltését a Hive-szkript szerkesztésekor. Ha például beírja SELECT * FROM, az IntelliSense felsorolja az összes javasolt táblanevet. Amikor megad egy táblanevet, az IntelliSense listázza az oszlopneveket. Az eszközök a legtöbb Hive DML-utasítást, -segédlekérdezést és beépített UDF-et támogatják.

    IntelliSense example 1, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    IntelliSense example 2, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    Feljegyzés

    Az IntelliSense csak a HDInsight eszköztáron kijelölt fürt metaadatait javasolja.

    Íme egy minta lekérdezés, amelyet használhat:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Válassza ki a végrehajtási módot:

    • Interaktív

      Az első legördülő listában válassza az Interaktív, majd a Végrehajtás lehetőséget.

      Interactive mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    • Batch

      Az első legördülő listában válassza a Batch, majd a Küldés lehetőséget. Vagy válassza a Küldés gomb melletti legördülő ikont, és válassza a Speciális lehetőséget.

      Batch mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Ha a speciális küldési lehetőséget választja, megjelenik a Szkript elküldése párbeszédpanel. Konfigurálja a szkript feladatnevét, argumentumait, további konfigurációit és állapotkönyvtárát .

      Submit Script dialog box, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Feljegyzés

      A kötegeket nem küldheti el interaktív lekérdezési fürtökbe. Interaktív módot kell használnia.

Hive alkalmazás létrehozása

Hive-megoldás létrehozása és futtatása:

  1. A menüsávon válassza az Új>projekt fájlja>lehetőséget.

  2. Az Új projekt létrehozása ablakban jelölje ki a keresőmezőt, és írja be a Hive kifejezést. Ezután válassza a Hive-alkalmazás lehetőséget, és válassza a Tovább gombot.

  3. Az új projekt konfigurálása ablakban adja meg a projekt nevét, jelölje ki vagy hozza létre a projekt helyét, majd válassza a Létrehozás lehetőséget.

    New Hive application, Configure your new project window, HDInsight Visual Studio.

  4. A Solution Explorerben (Megoldáskezelőben) kattintson duplán a Script.hql fájlra a szkript megnyitásához.

Feladat összegzésének és kimenetének megtekintése

A feladatok összegzése kissé eltér a Batch és az Interaktív mód között.

Hive job summary windows, batch and interactive mode, Visual Studio.

A Frissítés ikonnal frissítheti az állapotot, amíg a feladat állapota befejeződött.

  • A Batch mód feladatadatainak megtekintéséhez válassza az alul található hivatkozásokat a Feladat lekérdezése, a Feladat kimenete vagy a Feladatnapló megtekintéséhez, illetve a Yarn-naplók megtekintéséhez.

  • Az interaktív módban végzett feladatok részleteiért tekintse meg a Kimenet és a HiveServer2 Kimeneti panelt.

    Hive interactive job output, HDInsight cluster, Visual Studio.

Feladatdiagram megtekintése

Jelenleg a feladatdiagramok csak a Tezt végrehajtó motorként használó Hive-feladatok esetében jelennek meg. További információ a Tez engedélyezéséről: Mi az az Apache Hive és a HiveQL az Azure HDInsightban? Lásd még: Az Apache Tez használata a Map Reduce helyett.

A csúcsponton belüli összes operátor megtekintéséhez kattintson duplán a feladatdiagram csúcsaira. Egy adott operátorra mutatva megtekintheti az operátor részleteit.

Még akkor sem jelenhet meg a feladatdiagram, ha a Tez végrehajtási motorként van megadva. Ez a helyzet azért fordulhat elő, mert a feladat nem tartalmaz DML-utasításokat. Vagy mert a DML-utasítások Tez-alkalmazás indítása nélkül is visszatérhetnek. Például SELECT * FROM table1 nem indítja el a Tez alkalmazást.

Apache Hive job graph, Visual Studio.

Tevékenységvégrehajtás részleteinek megtekintése

A feladatdiagramon kiválaszthatja a Feladatvégrehajtás részletei lehetőséget a Hive-feladatok strukturált és vizualizált adatainak lekéréséhez. További feladatadatokat is kaphat. Teljesítményproblémák esetén a nézet segítségével részletesebb információkat szerezhet a problémáról. Lekérheti például az egyes tevékenységek működésével kapcsolatos információkat és az egyes tevékenységek részletes adatait (adatolvasási/írási, ütemezési/kezdési/befejezési idő stb.). A megjelenített információk alapján pedig finomhangolhatja a feladatkonfigurációkat vagy a rendszerarchitektúrát.

Task Execution View window, Data Lake Visual Studio Tools.

Hive-feladatok megtekintése

Megtekintheti a Hive-feladatok feladatlekérdezéseit, feladatkimenetét, feladatnaplóit és Yarn naplóit.

Az eszközök legújabb kiadásában a Yarn-naplók gyűjtésével és böngészésével láthatja, hogy mi található a Hive-feladatokban. A YARN-naplók segíthetnek a teljesítménnyel kapcsolatos problémák vizsgálatában. További információ a HDInsight Yarn-naplók gyűjtéséről: Access Apache Hadoop YARN-alkalmazásnaplók.

Hive-feladatok megtekintése:

  1. Kattintson a jobb gombbal egy HDInsight-fürtre, és válassza a Feladatok megtekintése parancsot.

    View Jobs, Apache Hive, HDInsight cluster, Visual Studio.

    Ekkor megjelenik azon Hive-feladatok listája, amelyek a fürtön futottak.

  2. Válasszon ki egy feladatot. A Hive-feladat összegzése ablakban válassza az alábbi hivatkozások egyikét:

    • Job Query (Feladat lekérdezése)
    • Feladat kimenete
    • Job Log (Feladatnapló)
    • Yarn-napló

Apache Pig-szkriptek futtatása

  1. A menüsávon válassza az Új>projekt fájlja>lehetőséget.

  2. A Start ablakban jelölje ki a keresőmezőt, és írja be a Pig kifejezést. Ezután válassza a Pig Application (Sertésalkalmazás) lehetőséget, majd a Tovább gombot.

  3. Az új projekt konfigurálása ablakban adja meg a projekt nevét, majd válasszon vagy hozzon létre egy helyet a projekthez. Válassza a Létrehozás parancsot.

  4. Az IDE Megoldáskezelő panelen kattintson duplán a Script.pig parancsra a szkript megnyitásához.

Visszajelzés és ismert problémák

  • Kijavítottunk egy hibát, amelynek következtében a null értékekkel induló eredmények nem jelentek meg. Ha elakad ennél a hibánál, lépjen kapcsolatba a támogatási csapattal.

  • A Visual Studio által létrehozott HQL-szkript kódolva van a felhasználó helyi régióbeállításától függően. A szkript nem fut megfelelően, ha a felhasználó bináris fájlként tölti fel a szkriptet a fürtbe.

Következő lépések

Ebben a cikkben megtanulta, hogyan csatlakozhat a HDInsight-fürtökhöz a Visual Studióból a Data Lake Tools for Visual Studio csomaggal. Emellett azt is megtanulta, hogyan futtathat Hive-lekérdezéseket.