Použití nástrojů Data Lake pro Visual Studio k připojení ke službě Azure HDInsight a spouštění dotazů Apache Hive

Naučte se používat Microsoft Azure Data Lake a Stream Analytics Tools for Visual Studio (Data Lake Tools). Pomocí nástroje se připojte ke clusterům Apache Hadoop v Azure HDInsight a odešlete dotazy Hive.

Další informace o používání služby HDInsight najdete v tématu Začínáme se službou HDInsight.

Pomocí nástrojů Data Lake pro Visual Studio můžete přistupovat ke službě Azure Data Lake Analytics i HDInsight. Informace o nástrojích Data Lake najdete v tématu Vývoj skriptů U-SQL pomocí nástrojů Data Lake pro Visual Studio.

Požadavky

K dokončení tohoto článku a použití nástrojů Data Lake pro Visual Studio potřebujete následující položky:

Instalace nástrojů Data Lake Tools pro Visual Studio

Podle příslušných pokynů nainstalujte nástroje Data Lake pro vaši verzi sady Visual Studio:

  • Pro Visual Studio 2017 nebo Visual Studio 2019:

    Během instalace sady Visual Studio nezapomeňte zahrnout úlohu vývoje pro Azure nebo úlohu ukládání a zpracování dat.

    U existujících instalací sady Visual Studio přejděte na řádek nabídek integrovaného vývojového prostředí (IDE) a vyberte Nástroje>Získat nástroje a funkce a otevřete Instalační program pro Visual Studio. Na kartě Úlohy vyberte aspoň úlohu vývoje Pro Azure (v části Web &Cloud). Nebo vyberte úlohu ukládání a zpracování dat (v části Jiné sady nástrojů).

    Workload selection, Visual Studio Installer.

  • Pro Visual Studio 2015:

    Stáhněte si nástroje Data Lake. Zvolte verzi nástrojů Data Lake, která se shoduje s vaší verzí sady Visual Studio.

Aktualizace nástrojů Data Lake pro Visual Studio

Dále se ujistěte, že aktualizujete nástroje Data Lake na nejnovější verzi.

  1. Otevřete sadu Visual Studio.

  2. V okně Start vyberte Pokračovat bez kódu.

  3. Na řádku nabídek integrovaného vývojového prostředí sady Visual Studio zvolte Rozšíření>spravovat rozšíření.

  4. V dialogovém okně Spravovat rozšíření rozbalte uzel Aktualizace.

  5. Pokud seznam dostupných aktualizací zahrnuje Azure Data Lake a Stream Analytic Tools, vyberte ho. Pak vyberte tlačítko Aktualizovat . Jakmile se zobrazí dialogové okno Stáhnout a nainstalovat a zmizí, Visual Studio přidá do plánu aktualizace rozšíření Azure Data Lake a Stream Analytic Tools .

  6. Zavřete všechna okna sady Visual Studio. Zobrazí se dialogové okno Instalační program VSIX.

  7. Pokud chcete přečíst licenční podmínky, vyberte Možnost Zavřít a vraťte se do dialogového okna Instalační program VSIX.

  8. Vyberte Upravit. Spustí se instalace aktualizace rozšíření. Po chvíli se dialogové okno změní, aby se zobrazilo, že se provádí úpravy. Vyberte Zavřít a restartujte Visual Studio, aby se instalace dokončila.

Poznámka:

Pro připojení ke clusterům Interactive Query a spouštění interaktivních dotazů Hive můžete použít pouze nástroje Data Lake verze 2.3.0.0 nebo novější.

Připojení k předplatným služby Azure

Pomocí nástrojů Data Lake pro Visual Studio se můžete připojit ke clusterům HDInsight, provádět některé základní operace správy a spouštět dotazy Hive.

Poznámka:

Informace o připojení k obecnému clusteru Hadoop naleznete v tématu Jak psát a odesílat dotazy Hive pomocí sady Visual Studio.

Připojení k předplatnému Azure

Připojení k předplatnému Azure:

  1. Otevřete sadu Visual Studio.

  2. V okně Start vyberte Pokračovat bez kódu.

  3. V řádku nabídek integrovaného vývojového prostředí zvolte Zobrazit>Průzkumníka serveru.

  4. V Průzkumníku serveru klikněte pravým tlačítkem na Azure, vyberte Připojení do předplatného Microsoft Azure a dokončete proces ověřování. V Průzkumníku serveru rozbalte Azure>HDInsight a zobrazte seznam existujících clusterů HDInsight.

  5. Pokud nemáte žádné clustery, vytvořte ho pomocí webu Azure Portal, Azure PowerShellu nebo sady HDInsight SDK. Další informace najdete v tématu Nastavení clusterů ve službě HDInsight.

    HDInsight cluster list, Server Explorer, Visual Studio.

  6. Rozbalte cluster služby HDInsight. Cluster obsahuje uzly pro databáze Hive. Výchozí účet úložiště, všechny další propojené účty úložiště a protokol služby Hadoop. Entity můžete dále rozšířit.

Po připojení k předplatnému Azure můžete provádět následující úlohy.

Připojení do Azure ze sady Visual Studio

Připojení k webu Azure Portal ze sady Visual Studio:

  1. V Průzkumníku serveru rozbalte Azure>HDInsight a vyberte cluster.

  2. Klikněte pravým tlačítkem na cluster HDInsight a vyberte Spravovat cluster na webu Azure Portal.

Nabídnout otázky a zpětnou vazbu ze sady Visual Studio

Kladení otázek nebo poskytnutí zpětné vazby ze sady Visual Studio:

  1. V Průzkumníku serveru zvolte Azure>HDInsight.

  2. Klikněte pravým tlačítkem na HDInsight a vyberte fórumMSDN a položte otázky nebo pošlete zpětnou vazbu.

Poznámka:

V současné době je jediným typem clusteru HDInsight, na který můžete vytvořit propojení, typ Hive.

Propojení clusteru HDInsight:

  1. Klikněte pravým tlačítkem myši na HDInsight a vyberte Propojit cluster HDInsight, aby se zobrazilo dialogové okno Propojit cluster HDInsight.

  2. Do formuláře https://CLUSTERNAME.azurehdinsight.netzadejte adresu URL Připojení ion . Název clusteru automaticky vyplní část názvu clusteru vaší adresy URL, když přejdete do jiného pole. Pak zadejte uživatelské jméno a heslo a vyberte Další.

    Link a cluster, HDInsight, Visual Studio.

  3. Vyberte Dokončit. Pokud je propojení clusteru úspěšné, cluster se zobrazí pod uzlem HDInsight .

Pokud chcete aktualizovat propojený cluster, klikněte pravým tlačítkem myši na cluster a vyberte Upravit. Informace o clusteru pak můžete aktualizovat.

Edit a linked cluster, HDInsight, Visual Studio.

Zkoumání propojených prostředků

V Průzkumníkovi serveru můžete zobrazit výchozí účet úložiště a všechny propojené účty úložiště. Pokud rozbalíte výchozí účet úložiště, uvidíte kontejnery na účtu úložiště. Jsou označeny jako výchozí účet úložiště a výchozí kontejner.

Data Lake Tools for Visual Studio linked resources in Server Explorer.

Klikněte pravým tlačítkem na kontejner a vyberte Zobrazit kontejner a zobrazte obsah kontejneru. Po otevření kontejneru můžete pomocí tlačítek panelu nástrojů aktualizovat seznam obsahu, nahrát objekt blob, odstranit vybrané objekty blob, otevřít objekt blob a stáhnout (Uložit jako) vybrané objekty blob.

Container list and blob operations, HDInsight cluster, Visual Studio.

Spouštění interaktivních dotazů Apache Hive

Apache Hive je infrastruktura datového skladu postavená na Hadoop. Hive se používá k souhrnům dat, dotazům a analýzám. Pomocí nástrojů Data Lake pro Visual Studio můžete spouštět dotazy Hive ze sady Visual Studio. Další informace o Hivu najdete v tématu Co je Apache Hive a HiveQL ve službě Azure HDInsight?.

Interaktivní dotaz v Azure HDInsight používá Hive v LLAP v Apache Hivu 2.1. Interactive Query přináší interaktivitu do složitých dotazů ve stylu datového skladu u velkých uložených datových sad. Spouštění dotazů Hive v interaktivním dotazu je mnohem rychlejší než tradiční dávkové úlohy Hive.

Poznámka:

Interaktivní dotazy Hive můžete spouštět pouze po připojení ke clusteru HDInsight Interactive Query.

Pomocí nástrojů Data Lake pro Visual Studio můžete také zjistit, co se nachází v úloze Hive. Nástroje Data Lake pro Visual Studio shromažďují a zpřístupňují protokoly Yarn určitých úloh Hive.

V Průzkumníku serveru zvolte Azure>HDInsight a vyberte cluster. Tento uzel je výchozím bodem v Průzkumníku serveru pro následující části.

Zobrazení tabulky hivesampletable

Všechny clustery HDInsight mají výchozí ukázkovou tabulku Hive s názvem hivesampletable.

V clusteru zvolte Výchozí>hivesampletable Hive Databases.>

  • Zobrazení schématu hivesampletable :

    Rozbalte hivesampletable. Zobrazí se názvy a datové typy hivesampletable sloupců.

  • hivesampletable Zobrazení dat:

    Klikněte pravým tlačítkem myši na hivesampletable a vyberte Zobrazit prvních 100 řádků. Seznam 100 výsledků se zobrazí v tabulce Hive: hivesampletable window. Tato akce je ekvivalentní spuštění následujícího dotazu Hive pomocí ovladače Odbc Hive:

    SELECT * FROM hivesampletable LIMIT 100

    Počet řádků můžete přizpůsobit změnou počtu řádků. V rozevíracím seznamu můžete zvolit 50, 100, 200 nebo 1000 řádků.

Vytváření tabulek Hive

K vytvoření tabulky Hive můžete použít grafické rozhraní (GUI) nebo dotazy Hive. Informace o používání dotazů Hive najdete v tématu Vytváření a spouštění dotazů Hive.

  1. V clusteru zvolte výchozí nastavení Databáze Hive.>

  2. Klikněte pravým tlačítkem myši na výchozí a vyberte Vytvořit tabulku.

  3. Konfigurace tabulky.

  4. Výběrem tlačítka Vytvořit tabulku odešlete úlohu, která vytvoří novou tabulku Hive.

    Create Table window, Hive, HDInsight cluster, Visual Studio.

Vytváření a spouštění dotazů Hive

Vytvářet a spouštět dotazy Hive můžete dvěma způsoby:

  • Vytváření dotazů ad-hoc
  • Vytvoření aplikace Hive

Vytvoření ad hoc dotazu

Vytvoření a spuštění ad hoc dotazu:

  1. Klikněte pravým tlačítkem na cluster, ve kterém chcete dotaz spustit, a vyberte Napsat dotaz Hive.

  2. Zadejte dotaz Hive.

    Editor Hive podporuje technologii IntelliSense. Nástroje Data Lake pro Visual Studio podporují načítání vzdálených metadat při úpravách skriptu Hive. Pokud například zadáte SELECT * FROM, IntelliSense zobrazí seznam všech navrhovaných názvů tabulek. Pokud zadáte název tabulky, IntelliSense vypíše názvy sloupců. Nástroje podporují většinu příkazů DML Hive, poddotazů a integrovaných UDF.

    IntelliSense example 1, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    IntelliSense example 2, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    Poznámka:

    IntelliSense navrhuje pouze metadata clusteru vybraného na panelu nástrojů služby HDInsight.

    Tady je ukázkový dotaz, který můžete použít:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Zvolte režim provádění:

    • Interaktivní

      V prvním rozevíracím seznamu zvolte Interactive (Interaktivní) a pak vyberte Execute (Spustit).

      Interactive mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    • Batch

      V prvním rozevíracím seznamu zvolte Batch a pak vyberte Odeslat. Nebo vyberte ikonu rozevíracího seznamu vedle možnosti Odeslat a zvolte Upřesnit.

      Batch mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Pokud vyberete možnost rozšířeného odeslání, zobrazí se dialogové okno Odeslat skript . Nakonfigurujte název úlohy, argumenty, další konfigurace a stavový adresář pro skript.

      Submit Script dialog box, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Poznámka:

      Dávky nemůžete odesílat do clusterů Interactive Query. Musíte použít interaktivní režim.

Vytvoření aplikace Hive

Vytvoření a spuštění řešení Hive:

  1. V řádku nabídek zvolte Soubor>nový>projekt.

  2. V okně Vytvořit nový projekt vyberte vyhledávací pole a zadejte Hive. Pak zvolte Aplikaci Hive a vyberte Další.

  3. V okně Konfigurovat nový projekt zadejte název projektu, vyberte nebo vytvořte umístění projektu a pak vyberte Vytvořit.

    New Hive application, Configure your new project window, HDInsight Visual Studio.

  4. V Průzkumníku řešení dvojím kliknutím otevřete skript Script.hql.

Zobrazení souhrnu a výstupu úlohy

Souhrn úlohy se mírně liší mezi režimem Batch a Interactive .

Hive job summary windows, batch and interactive mode, Visual Studio.

Pomocí ikony Aktualizovat aktualizujte stav, dokud se stav úlohy nezmění na Dokončeno.

  • Pokud chcete zobrazit podrobnosti o úloze v režimu Batch , vyberte odkazy v dolní části, abyste viděli dotaz úlohy, výstup úlohy nebo protokol úloh nebo zobrazit protokoly Yarn.

  • Podrobnosti úlohy z interaktivního režimu najdete v podoknech Výstup a HiveServer2.

    Hive interactive job output, HDInsight cluster, Visual Studio.

Zobrazení grafu úloh

V současné době se grafy úloh zobrazují jenom pro úlohy Hive, které jako prováděcí modul používají Tez. Informace o povolení Tez najdete v tématu Co je Apache Hive a HiveQL ve službě Azure HDInsight? Viz také použití Apache Tez místo redukce map.

Pokud chcete zobrazit všechny operátory uvnitř vrcholu, poklikejte na vrcholy grafu úlohy. Můžete také ukázat na konkrétní operátor a zobrazit tak další podrobnosti o tomto operátoru.

I když je Tez zadán jako prováděcí modul, nemusí se graf úloh objevit, pokud není spuštěna žádná aplikace Tez. K této situaci může dojít, protože úloha neobsahuje příkazy DML. Nebo protože příkazy DML se můžou vrátit bez spuštění aplikace Tez. Například SELECT * FROM table1 nespustí aplikaci Tez.

Apache Hive job graph, Visual Studio.

Zobrazení podrobností o spuštění úlohy

V grafu úlohy můžete vybrat podrobnosti o spuštění úlohy, abyste získali strukturované a vizualizované informace pro úlohy Hive. Můžete také získat další podrobnosti o úloze. Pokud dojde k problémům s výkonem, můžete pomocí tohoto zobrazení získat další podrobnosti o problému. Můžete například načíst informace o tom, jak jednotlivé úlohy fungují, a podrobné informace o jednotlivých úkolech (čtení a zápis dat, plán, zahájení/ukončení a další). Na základě vizualizovaných informací můžete tyto informace využít k ladění konfigurací úloh nebo architektury systémy.

Task Execution View window, Data Lake Visual Studio Tools.

Zobrazení úloh Hive

Můžete zobrazit dotazy úlohy, výstup úlohy, protokoly úlohy a protokoly Yarn pro úlohy Hive.

V nejnovější verzi nástrojů můžete zjistit, co se nachází v úlohách Hive, shromažďováním a zpřístupněním protokolů Yarn. Protokol Yarn vám může pomoci prozkoumat problémy s výkonem. Další informace o tom, jak HDInsight shromažďuje protokoly Yarn, najdete v tématu Přístup k protokolům aplikací Apache Hadoop YARN.

Zobrazení úloh Hive:

  1. Klikněte pravým tlačítkem na cluster HDInsight a vyberte Zobrazit úlohy.

    View Jobs, Apache Hive, HDInsight cluster, Visual Studio.

    Zobrazí se seznam úloh Hive, které se v clusteru spustily.

  2. Vyberte úlohu. V okně Souhrn úlohy Hive vyberte jeden z následujících odkazů:

    • Dotaz úlohy
    • Výstup úlohy
    • Protokol úlohy
    • Protokol Yarn

Spouštění skriptů Apache Pig

  1. V řádku nabídek zvolte Soubor>nový>projekt.

  2. V okně Start vyberte vyhledávací pole a zadejte Pig. Pak vyberte Aplikaci Pig a vyberte Další.

  3. V okně Konfigurovat nový projekt zadejte název projektu a vyberte nebo vytvořte umístění projektu. Pak vyberte Vytvořit.

  4. V podokně ide Průzkumník řešení poklikejte na Script.pig a otevřete skript.

Zpětná vazba a známé problémy

  • Opravili jsme problém, kdy se nezobrazovaly výsledky začínající hodnotami null. Pokud vás tento problém blokuje, kontaktujte tým podpory.

  • Skript HQL, který Visual Studio vytvoří, je kódován v závislosti na nastavení místní oblasti uživatele. Skript se nespustí správně, pokud ho nahrajete do clusteru jako binární soubor.

Další kroky

V tomto článku jste zjistili, jak se pomocí balíčku nástrojů Data Lake pro Visual Studio připojit ke clusterům HDInsight ze sady Visual Studio. Také jste se naučili spustit dotaz Hive.