Rychlý Start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí Azure PortalQuickstart: Create Apache Spark cluster in Azure HDInsight using Azure portal

V tomto rychlém startu použijete Azure Portal k vytvoření clusteru Apache Spark ve službě Azure HDInsight.In this quickstart, you use the Azure portal to create an Apache Spark cluster in Azure HDInsight. Pak vytvoříte Poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL pro Apache Hive tabulek.You then create a Jupyter notebook, and use it to run Spark SQL queries against Apache Hive tables. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky.Azure HDInsight is a managed, full-spectrum, open-source analytics service for enterprises. Rozhraní Apache Spark Framework for HDInsight umožňuje rychlé analýzy dat a výpočetní výkon clusteru pomocí zpracování v paměti.The Apache Spark framework for HDInsight enables fast data analytics and cluster computing using in-memory processing. Poznámkový blok Jupyter vám umožňuje pracovat s daty, kombinovat kód s textem Markdownu a provádět jednoduché vizualizace.Jupyter notebook lets you interact with your data, combine code with markdown text, and do simple visualizations.

Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů v HDInsight.For in-depth explanations of available configurations, see Set up clusters in HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytvoření clusterů na portálu.For more information regarding the use of the portal to create clusters, see Create clusters in the portal.

Pokud používáte více clusterů společně, budete chtít vytvořit virtuální síť a pokud používáte cluster Spark, budete také chtít použít konektor pro skladiště z podregistru.If you're using multiple clusters together, you'll want to create a virtual network, and if you're using a Spark cluster you'll also want to use the Hive Warehouse Connector. Další informace najdete v tématu plánování virtuální sítě pro Azure HDInsight a integrace Apache Spark a Apache Hive pomocí konektoru skladu s podregistru.For more information, see Plan a virtual network for Azure HDInsight and Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector.

Důležité

Clustery HDInsight se fakturují za minutu bez ohledu na to, jestli je používáte, nebo ne.Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Až přestanete cluster používat, nezapomeňte ho odstranit.Be sure to delete your cluster after you have finished using it. Další informace najdete v části Vyčištění prostředků tohoto článku.For more information, see the Clean up resources section of this article.

PožadavkyPrerequisites

Účet Azure s aktivním předplatným.An Azure account with an active subscription. Vytvořte si účet zdarma.Create an account for free.

Vytvoření clusteru Apache Spark v HDInsightCreate an Apache Spark cluster in HDInsight

Pomocí Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob Azure Storage.You use the Azure portal to create an HDInsight cluster that uses Azure Storage Blobs as the cluster storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.For more information on using Data Lake Storage Gen2, see Quickstart: Set up clusters in HDInsight.

  1. Přihlaste se k webu Azure Portal.Sign in to the Azure portal.

  2. V horní nabídce vyberte + vytvořit prostředek .From the top menu, select + Create a resource .

    Azure Portal vytvoření prostředkuAzure portal create a resource

  3. Vyberte Analytics > Azure HDInsight a přejdete na stránku vytvořit cluster HDInsight .Select Analytics > Azure HDInsight to go to the Create HDInsight cluster page.

  4. Na kartě základy zadejte následující informace:From the Basics tab, provide the following information:

    VlastnostProperty PopisDescription
    PředplatnéSubscription V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.From the drop-down list, select the Azure subscription that's used for the cluster.
    Skupina prostředkůResource group V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte vytvořit novou .From the drop-down list, select your existing resource group, or select Create new .
    Název clusteruCluster name Zadejte globálně jedinečný název.Enter a globally unique name.
    Region (Oblast)Region V rozevíracím seznamu vyberte oblast, ve které se cluster vytvoří.From the drop-down list, select a region where the cluster is created.
    Typ clusteruCluster type Vyberte vybrat typ clusteru a otevřete seznam.Select Select cluster type to open a list. V seznamu vyberte možnost Spark .From the list, select Spark .
    Verze clusteruCluster version Po výběru typu clusteru bude toto pole automaticky vyplněno výchozí verzí.This field will auto-populate with the default version once the cluster type has been selected.
    Uživatelské jméno přihlášení clusteruCluster login username Zadejte uživatelské jméno přihlášení clusteru.Enter the cluster login username. Výchozí název je admin . Tento účet použijete k přihlášení do poznámkového bloku Jupyter později v rychlém startu.The default name is admin . You use this account to login in to the Jupyter notebook later in the quickstart.
    Heslo přihlášení clusteruCluster login password Zadejte přihlašovací heslo clusteru.Enter the cluster login password.
    Uživatelské jméno Secure Shell (SSH)Secure Shell (SSH) username Zadejte uživatelské jméno SSH.Enter the SSH username. V tomto rychlém startu se používá uživatelské jméno SSH sshuser .The SSH username used for this quickstart is sshuser . Ve výchozím nastavení má tento účet stejné heslo jako účet Uživatelské jméno přihlášení clusteru .By default, this account shares the same password as the Cluster Login username account.

    Snímek obrazovky s vybraným kartou základy vám ukáže vytvořit cluster s přehledem o vytváření H D.Screenshot shows Create H D Insight cluster with the Basics tab selected.

    Vyberte Další: >>úložiště pro pokračování na stránku úložiště .Select Next: Storage >> to continue to the Storage page.

  5. V části Úložiště zadejte tyto hodnoty:Under Storage , provide the following values:

    VlastnostProperty PopisDescription
    Typ primárního úložištěPrimary storage type Použijte výchozí hodnotu Azure Storage .Use the default value Azure Storage .
    Metoda výběruSelection method Použijte výchozí hodnotu vybrat ze seznamu .Use the default value Select from list .
    Účet primárního úložištěPrimary storage account Použijte automaticky vyplněnou hodnotu.Use the auto-populated value.
    KontejnerContainer Použijte automaticky vyplněnou hodnotu.Use the auto-populated value.

    Snímek obrazovky s vybraným úložištěm vám ukáže vytvořit cluster s přehledem o vytváření H-D.Screenshot shows Create H D Insight cluster with the Storage tab selected.

    Pokračujte výběrem Zobrazit + vytvořit .Select Review + create to continue.

  6. V nabídce Revize + vytvořit vyberte vytvořit .Under Review + create , select Create . Vytvoření clusteru trvá přibližně 20 minut.It takes about 20 minutes to create the cluster. Než budete moct pokračovat k další relaci, musí se cluster nejdříve vytvořit.The cluster must be created before you can proceed to the next session.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být tím, že nemáte správná oprávnění k tomu.If you run into an issue with creating HDInsight clusters, it could be that you don't have the right permissions to do so. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.For more information, see Access control requirements.

Vytvoření poznámkového bloku JupyterCreate a Jupyter notebook

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky.Jupyter Notebook is an interactive notebook environment that supports various programming languages. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.The notebook allows you to interact with your data, combine code with markdown text and perform simple visualizations.

  1. Z webového prohlížeče přejděte do https://CLUSTERNAME.azurehdinsight.net/jupyter umístění, kde CLUSTERNAME je název vašeho clusteru.From a web browser, navigate to https://CLUSTERNAME.azurehdinsight.net/jupyter, where CLUSTERNAME is the name of your cluster. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.If prompted, enter the cluster login credentials for the cluster.

  2. Vyberte Nový > PySpark a vytvořte Poznámkový blok.Select New > PySpark to create a notebook.

    Vytvoření Jupyter Notebook pro spuštění interaktivního dotazu Spark SQLCreate a Jupyter Notebook to run interactive Spark SQL query

    Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).A new notebook is created and opened with the name Untitled(Untitled.pynb).

Spustit Apache Spark příkazy SQLRun Apache Spark SQL statements

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat.SQL (Structured Query Language) is the most common and widely used language for querying and defining data. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.Spark SQL functions as an extension to Apache Spark for processing structured data, using the familiar SQL syntax.

  1. Ověřte, že je jádro připravené.Verify the kernel is ready. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek.The kernel is ready when you see a hollow circle next to the kernel name in the notebook. Plný kruh označuje, že je jádro zaneprázdněno.Solid circle denotes that the kernel is busy.

    Snímek obrazovky zobrazuje okno Jupyter s indikátorem PySpark.Screenshot shows a Jupyter window with a PySpark indicator.

    Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí.When you start the notebook for the first time, the kernel performs some tasks in the background. Počkejte, až bude jádro připravené.Wait for the kernel to be ready.

  2. Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte.Paste the following code in an empty cell, and then press SHIFT + ENTER to run the code. Příkaz vypíše tabulky Hive v clusteru:The command lists the Hive tables on the cluster:

    %%sql
    SHOW TABLES
    

    Když použijete Jupyter Notebook s clusterem HDInsight, získáte předvolbu sqlContext , kterou můžete použít ke spouštění dotazů na podregistr pomocí Spark SQL.When you use a Jupyter Notebook with your HDInsight cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil přednastavený kontext sqlContext.%%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. Dotaz načte prvních 10 řádků z tabulky Hive ( hivesampletable ), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight.The query retrieves the top 10 rows from a Hive table ( hivesampletable ) that comes with all HDInsight clusters by default. Získání výsledků trvá přibližně 30 sekund.It takes about 30 seconds to get the results. Výstup vypadá takto:The output looks like:

    Snímek obrazovky se zobrazí okno Jupyter pro Poznámkový blok vytvořený v rámci tohoto rychlého startu.Screenshot shows a Jupyter window for the notebook created in this quickstart.

    Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku.Every time you run a query in Jupyter, your web browser window title shows a (Busy) status along with the notebook title. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.You also see a solid circle next to the PySpark text in the top-right corner.

  3. Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.Run another query to see the data in hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.The screen shall refresh to show the query output.

    Výstup dotazů na podregistr v HDInsightHive query output in HDInsight

  4. V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit .From the File menu on the notebook, select Close and Halt . Ukončením poznámkového bloku se uvolní prostředky clusteru.Shutting down the notebook releases the cluster resources.

Vyčištění prostředkůClean up resources

HDInsight ukládá vaše data do Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, pokud se nepoužívá.HDInsight saves your data in Azure Storage or Azure Data Lake Storage, so you can safely delete a cluster when it isn't in use. Účtují se vám také poplatky za cluster HDInsight, a to i v případě, že se už nepoužívá.You're also charged for an HDInsight cluster, even when it isn't in use. Vzhledem k tomu, že se poplatky za cluster mnohokrát účtují rychleji než poplatky za úložiště, má ekonomický smysl odstraňovat clustery, když se nepoužívají.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Přepněte zpět na web Azure Portal a vyberte Odstranit .Switch back to the Azure portal, and select Delete .

Azure Portal odstranit cluster HDInsightAzure portal delete an HDInsight cluster

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků .You can also select the resource group name to open the resource group page, and then select Delete resource group . Odstraněním skupiny prostředků odstraníte cluster HDInsight i výchozí účet úložiště.By deleting the resource group, you delete both the HDInsight cluster, and the default storage account.

Další krokyNext steps

V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark v HDInsight a spustit základní dotaz Spark SQL.In this quickstart, you learned how to create an Apache Spark cluster in HDInsight and run a basic Spark SQL query. Přejděte k dalšímu kurzu, kde se dozvíte, jak používat cluster HDInsight ke spouštění interaktivních dotazů na ukázkových datech.Advance to the next tutorial to learn how to use an HDInsight cluster to run interactive queries on sample data.