Rychlý Start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí Azure Portal

V tomto rychlém startu použijete Azure Portal k vytvoření clusteru Apache Spark ve službě Azure HDInsight. pak vytvoříte Jupyter Notebook a použijete ho ke spouštění dotazů Spark SQL proti Apache Hive tabulkám. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Rozhraní Apache Spark Framework for HDInsight umožňuje rychlé analýzy dat a výpočetní výkon clusteru pomocí zpracování v paměti. Jupyter Notebook vám umožní pracovat s daty, kombinovat kód s textem Markdownu a provádět jednoduché vizualizace.

Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů v HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytvoření clusterů na portálu.

Pokud používáte více clusterů společně, budete chtít vytvořit virtuální síť a pokud používáte cluster Spark, budete také chtít použít konektor pro skladiště z podregistru. Další informace najdete v tématu plánování virtuální sítě pro Azure HDInsight a integrace Apache Spark a Apache Hive pomocí konektoru skladu s podregistru.

Důležité

Clustery HDInsight se fakturují za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.

Požadavky

Účet Azure s aktivním předplatným. Vytvořte si účet zdarma.

Vytvoření clusteru Apache Spark v HDInsight

pomocí Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.

  1. Přihlaste se k webu Azure Portal.

  2. V horní nabídce vyberte + vytvořit prostředek.

    Azure Portal vytvořit prostředek správy zdrojového "Border =" true ":::

  3. Vyberte Analytics > Azure HDInsight a přejdete na stránku vytvořit cluster HDInsight .

  4. Na kartě základy zadejte následující informace:

    Vlastnost Popis
    Předplatné V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.
    Skupina prostředků V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte vytvořit novou.
    Název clusteru Zadejte globálně jedinečný název.
    Oblast V rozevíracím seznamu vyberte oblast, ve které se cluster vytvoří.
    Typ clusteru Vyberte vybrat typ clusteru a otevřete seznam. V seznamu vyberte možnost Spark.
    Verze clusteru Po výběru typu clusteru bude toto pole automaticky vyplněno výchozí verzí.
    Uživatelské jméno přihlášení clusteru Zadejte uživatelské jméno přihlášení clusteru. Výchozí název je admin. Pomocí tohoto účtu se přihlásíte k Jupyter Notebook později v rychlém startu.
    Heslo přihlášení clusteru Zadejte přihlašovací heslo clusteru.
    Uživatelské jméno Secure Shell (SSH) Zadejte uživatelské jméno SSH. V tomto rychlém startu se používá uživatelské jméno SSH sshuser. Ve výchozím nastavení má tento účet stejné heslo jako účet Uživatelské jméno přihlášení clusteru.

    Snímek obrazovky s vybraným kartou základy vám ukáže vytvořit cluster s přehledem o vytváření H D.

    vyberte další: Storage >> pokračování na stránce Storage .

  5. V části Úložiště zadejte tyto hodnoty:

    Vlastnost Popis
    Typ primárního úložiště Použijte výchozí hodnotu Azure Storage.
    Metoda výběru Použijte výchozí hodnotu vybrat ze seznamu.
    Účet primárního úložiště Použijte automaticky vyplněnou hodnotu.
    Kontejner Použijte automaticky vyplněnou hodnotu.

    snímek obrazovky s vybraným tabulátorem Storage vytvoří cluster s přehledem o vytváření H D.

    Pokračujte výběrem Zobrazit + vytvořit .

  6. V nabídce Revize + vytvořit vyberte vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Než budete moct pokračovat k další relaci, musí se cluster nejdříve vytvořit.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být tím, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.

Vytvoříte poznámkový blok Jupyter Notebooks.

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

  1. Z webového prohlížeče přejděte do https://CLUSTERNAME.azurehdinsight.net/jupyter umístění, kde CLUSTERNAME je název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.

  2. Vyberte Nový > PySpark a vytvořte Poznámkový blok.

    vytvoření Jupyter Notebook pro spuštění interaktivního dotazu Spark SQL

    Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).

příkazy Run Apache Spark SQL

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.

  1. Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.

    Snímek obrazovky zobrazuje okno Jupyter s indikátorem PySpark. Indikátor ARK. " Border = "true":::

    Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.

  2. Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:

    %%sql
    SHOW TABLES
    

    Když použijete Jupyter Notebook s clusterem HDInsight, získáte předvolbu sqlContext , kterou můžete použít ke spouštění dotazů na podregistry pomocí Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil přednastavený kontext sqlContext. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:

    Snímek obrazovky se zobrazí okno Jupyter pro Poznámkový blok vytvořený v rámci tohoto rychlého startu. je rychlý Start. " Border = "true":::

    Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.

  3. Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.

    Výstup dotazů na podregistr v HDInsight Přehled "Border =" true ":::

  4. V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Ukončením poznámkového bloku se uvolní prostředky clusteru.

Vyčištění prostředků

HDInsight ukládá vaše data do Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, pokud se nepoužívá. Účtují se vám také poplatky za cluster HDInsight, a to i v případě, že se už nepoužívá. Vzhledem k tomu, že se poplatky za cluster mnohokrát účtují rychleji než poplatky za úložiště, má ekonomický smysl odstraňovat clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.

Přepněte zpět na web Azure Portal a vyberte Odstranit.

Azure Portal odstranit cluster pro dohled clusteru HDInsight "Border =" true ":::

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků odstraníte cluster HDInsight i výchozí účet úložiště.

Další kroky

v tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark v HDInsight a spustit základní dotaz SQL Spark. Přejděte k dalšímu kurzu, kde se dozvíte, jak používat cluster HDInsight ke spouštění interaktivních dotazů na ukázkových datech.