Rychlý Start: Vytvoření clusteru Apache Hadoop ve službě Azure HDInsight pomocí Azure Portal

V tomto článku se naučíte, jak vytvářet clustery Apache Hadoop v HDInsight pomocí Azure Portal a pak spouštět Apache Hive úlohy v HDInsight. Většina úloh Hadoop jsou dávkové úlohy. Vytvoříte cluster, spustíte některé úlohy a pak cluster odstraníte. V tomto článku provedete všechny tři úlohy. Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů v HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytvoření clusterů na portálu.

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster HDInsight Hadoop. K vytvoření clusteru můžete použít také šablonu Azure Resource Manageru.

V současné době se HDInsight dodává se sedmi různými typy clusterů. Každý typ clusteru podporuje odlišnou sadu komponent. Všechny typy clusteru podporují Hive. Seznam podporovaných komponent ve službě HDInsight najdete v tématu co je nového v Apache Hadoop verzích clusterů poskytovaných službou HDInsight?

Pokud předplatné Azure ještě nemáte, napřed si vytvořte bezplatný účet.

Vytvoření clusteru Apache Hadoop

V této části vytvoříte cluster Hadoop v HDInsight pomocí webu Azure Portal.

  1. Přihlaste se k Azure Portal.

  2. V horní nabídce vyberte + vytvořit prostředek.

    Vytvoření clusteru HDInsight prostředku

  3. Vyberte Analytics > Azure HDInsight a přejdete na stránku vytvořit cluster HDInsight .

  4. Na kartě základy zadejte následující informace:

    Vlastnost Popis
    Předplatné V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.
    Skupina prostředků V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte vytvořit novou.
    Název clusteru Zadejte globálně jedinečný název. Název může obsahovat až 59 znaků včetně písmen, číslic a spojovníků. První a poslední znak jména nesmí být spojovníky.
    Oblast V rozevíracím seznamu vyberte oblast, ve které se cluster vytvoří. Pro dosažení lepšího výkonu zvolte co nejbližší umístění.
    Typ clusteru Vyberte možnost vybrat typ clusteru. Pak jako typ clusteru vyberte Hadoop .
    Verze V rozevíracím seznamu vyberte verzi. Pokud si nejste jisti, co si můžete vybrat, použijte výchozí verzi.
    Přihlašovací uživatelské jméno a heslo clusteru Výchozí přihlašovací jméno je admin. Heslo musí mít minimálně 10 znaků a musí obsahovat aspoň jedno číslo, jedno velké písmeno a jedno malé písmeno, jeden jiný než alfanumerický znak (kromě znaků) ) . Ujistěte se, že nezadáváte běžné heslo, jako je například Pass@word1.
    Uživatelské jméno Secure Shell (SSH) Výchozí uživatelské jméno je sshuser. Pro uživatelské jméno SSH můžete zadat jiný název.
    Použít heslo přihlášení clusteru pro SSH Toto políčko zaškrtněte, pokud chcete pro uživatele SSH použít stejné heslo jako ten, který jste zadali pro uživatele přihlášení clusteru.

    Začínáme s HDInsight Linux poskytují základní hodnoty clusteru

    vyberte další: Storage >> chcete-li přejít k nastavení úložiště.

  5. na kartě Storage zadejte následující hodnoty:

    Vlastnost Popis
    Typ primárního úložiště Použijte výchozí hodnotu Azure Storage.
    Metoda výběru Použijte výchozí hodnotu vybrat ze seznamu.
    Účet primárního úložiště Pomocí rozevíracího seznamu vyberte existující účet úložiště, nebo vyberte vytvořit novou. Pokud vytvoříte nový účet, musí mít název délku 3 až 24 znaků a může obsahovat jenom číslice a malá písmena.
    Kontejner Použijte automaticky vyplněnou hodnotu.

    Začínáme s HDInsight Linux poskytují hodnoty úložiště clusteru

    každý cluster má účet Azure Storage, Azure Data Lake Gen1nebo Azure Data Lake Storage Gen2 závislost. Označuje se jako výchozí účet úložiště. Cluster HDInsight a jeho výchozí účet úložiště musí být společně umístěné ve stejné oblasti Azure. Odstraněním clusterů nedojde k odstranění účtu úložiště.

    Vyberte kartu Revize + vytvořit .

  6. Na kartě Revize + vytvořit ověřte hodnoty, které jste vybrali v předchozích krocích.

    Souhrn clusteru HDInsight Linux Začínáme

  7. Vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut.

    Po vytvoření clusteru se zobrazí stránka přehledu clusteru na webu Azure Portal.

    Počáteční nastavení clusteru HDInsight Linux

Spuštění dotazů Apache Hive

Apache Hive je nejoblíbenější součástí používanou v HDInsight. Existuje mnoho způsobů spouštění úloh Hive v HDInsight. V tomto rychlém startu použijete zobrazení podregistru Ambari z portálu. Další metody pro odesílání úloh Hive naleznete v části Použití Hive v HDInsight.

Poznámka

Zobrazení Apache Hive není v HDInsight 4,0 k dispozici.

  1. Pokud chcete otevřít Ambari, vyberte Řídicí panel clusteru, jak je znázorněno na předchozím snímku obrazovky. Můžete také přejít na https://ClusterName.azurehdinsight.net místo, kde ClusterName je cluster, který jste vytvořili v předchozí části.

    Řídicí panel clusteru HDInsight Linux Začínáme

  2. Zadejte uživatelské jméno a heslo Hadoop, které jste zadali při vytváření clusteru. Výchozí uživatelské jméno admin.

  3. Otevřete Zobrazení Hive, jak je znázorněno na následujícím snímku obrazovky:

    Výběr zobrazení podregistru z Ambari

  4. Na kartě DOTAZ vložte následující příkazy HiveQL do pracovního listu:

    SHOW TABLES;
    

    Editor dotazů zobrazení podregistru HDInsight

  5. Vyberte Execute (Provést). Karta VÝSLEDKY se zobrazí pod kartou DOTAZ a zobrazí informace o úloze.

    Po dokončení dotazu se na kartě dotaz zobrazí výsledky operace. Zobrazí jedna tabulka s názvem hivesampletable. Tato vzorová tabulka Hive obsahuje všechny clustery HDInsight.

    Výsledky zobrazení Apache Hive HDInsight

  6. Opakujte kroky 4 a 5 a spusťte následující dotaz:

    SELECT * FROM hivesampletable;
    
  7. Výsledky dotazu můžete také uložit. Vyberte tlačítko s nabídkou na pravé straně a určete, jestli chcete stáhnout výsledky jako soubor CSV nebo je uložit do účtu úložiště přidruženého ke clusteru.

    Uložení výsledku Apache Hive dotazu

Po dokončení úlohy Hive můžete výsledky exportovat do databáze Azure SQL Database nebo SQL Server, můžete výsledky také vizualizovat pomocí Excel . Další informace o použití Hivu ve službě HDInsight najdete v tématu Použití Apache Hive a HiveQL s Apache Hadoop ve službě HDInsight k analýze ukázkového souboru Apache log4j.

Vyčištění prostředků

Po dokončení tohoto rychlého startu můžete cluster odstranit. Ve službě HDInsight jsou vaše data uložená Azure Storage, takže můžete cluster bezpečně odstranit, když se nevyu ichá. Za cluster HDInsight se vám také účtují poplatky, i když se nevyu i on se používá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, má úsporný smysl odstranit clustery, když se nevyu ijí.

Poznámka

Pokud okamžitě pokračujete k dalšímu článku, kde se dozvíte, jak spouštět operace ETL pomocí Hadoopu ve službě HDInsight, můžete cluster nechat spuštěný. Je to proto, že v tomto kurzu budete muset znovu vytvořit cluster Hadoop. Pokud ale hned další článek nespouštíte, musíte teď cluster odstranit.

Postup odstranění clusteru a/nebo výchozího účtu úložiště

  1. Vraťte se na kartu prohlížeče s webem Azure Portal. Měli byste být na stránce s přehledem clusteru. Pokud chcete odstranit jenom cluster, ale zachovat výchozí účet úložiště, vyberte Odstranit.

    Azure HDInsight odstranění clusteru

  2. Pokud chcete odstranit cluster i výchozí účet úložiště, vyberte název skupiny prostředků (zvýrazněný na předchozím snímku obrazovky) a otevřete stránku skupiny prostředků.

  3. Vyberte Odstranit skupinu prostředků a odstraňte skupinu prostředků obsahující cluster a výchozí účet úložiště. Upozorňujeme, že odstraněním skupiny prostředků odstraníte účet úložiště. Pokud chcete zachovat účet úložiště, zvolte odstranění samotného clusteru.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster HDInsight se systémem Linux pomocí šablony Resource Manager a jak provádět základní dotazy Hive. V dalším článku se dozvíte, jak pomocí Hadoopu ve službě HDInsight provést operaci ETL (extrakce, transformace a načítání).