Rychlý start: Vytvoření clusteru Apache Spark v HDInsight pomocí webu Azure portalQuickstart: Create an Apache Spark cluster in HDInsight using the Azure portal

Zjistěte, jak vytvořit cluster Apache Spark v Azure HDInsight a jak spustit dotazy Spark SQL na tabulky Hive.Learn how to create Apache Spark cluster in Azure HDInsight, and how to run Spark SQL queries against Hive tables. Apache Spark umožňuje rychlou analýzu dat a clusterové výpočty s využitím zpracování v paměti.Apache Spark enables fast data analytics and cluster computing using in-memory processing. Informace o Sparku v HDInsight najdete v tématu přehled: Apache Spark v Azure HDInsight.For information on Spark on HDInsight, see Overview: Apache Spark on Azure HDInsight.

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster HDInsight Spark.In this quickstart, you use the Azure portal to create an HDInsight Spark cluster. Cluster jako úložiště využívá Azure Storage Blob.The cluster uses Azure Storage Blobs as the cluster storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu rychlý start: Nastavení clusterů v HDInsight.For more information on using Data Lake Storage Gen2, see Quickstart: Set up clusters in HDInsight.

Důležité

Clustery HDInsight se fakturují za minutu bez ohledu na to, jestli je používáte, nebo ne.Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Až přestanete cluster používat, nezapomeňte ho odstranit.Be sure to delete your cluster after you have finished using it. Další informace najdete v části Vyčištění prostředků tohoto článku.For more information, see the Clean up resources section of this article.

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

Vytvoření clusteru HDInsight SparkCreate an HDInsight Spark cluster

  1. Na webu Azure Portal, vyberte vytvořit prostředek > Analytics > HDInsight.In the Azure portal, select Create a resource > Analytics > HDInsight.

    HDInsight na webu Azure PortalHDInsight on Azure portal

  2. V části Základy zadejte tyto hodnoty:Under Basics, provide the following values:

    VlastnostProperty PopisDescription
    Název clusteruCluster name Pojmenujte svůj cluster HDInsight Spark.Give a name to your HDInsight Spark cluster. V tomto rychlém startu se používá název clusteru myspark20180403.The cluster name used for this quickstart is myspark20180403.
    PředplatnéSubscription V rozevíracím seznamu vyberte předplatné Azure používané pro tento cluster.From the drop-down, select an Azure subscription used for this cluster. V tomto rychlém startu se používá <Předplatné Azure.The subscription used for this quickstart is <Azure subscription.
    Typ clusteruCluster type Tuto položku rozbalte a pak jako typ clusteru vyberte Spark a zvolte verzi clusteru Spark.Expand the item, and then select Spark as the cluster type, and specify the Spark cluster version.
    Select HDInsight cluster type
    Uživatelské jméno přihlášení clusteruCluster login username Zadejte uživatelské jméno přihlášení clusteru.Enter the cluster login username. Výchozí uživatelské jméno je admin. Tento účet použijete pro přihlášení k poznámkovému bloku Jupyter v pozdější fázi rychlého startu.The default name is admin. You use this account to login in to the Jupyter notebook later in the quickstart.
    Heslo přihlášení clusteruCluster login password Zadejte přihlašovací heslo clusteru.Enter the cluster login password.
    Uživatelské jméno Secure Shell (SSH)Secure Shell (SSH) username Zadejte uživatelské jméno SSH.Enter the SSH username. V tomto rychlém startu se používá uživatelské jméno SSH sshuser.The SSH username used for this quickstart is sshuser. Ve výchozím nastavení má tento účet stejné heslo jako účet Uživatelské jméno přihlášení clusteru.By default, this account shares the same password as the Cluster Login username account.
    Skupina prostředkůResource group Určete, jestli chcete vytvořit novou skupinu prostředků, nebo použít existující.Specify whether you want to create a new resource group or use an existing one. Skupina prostředků je kontejner, který obsahuje související prostředky pro řešení Azure.A resource group is a container that holds related resources for an Azure solution. V tomto rychlém startu se používá název skupiny prostředků myspark20180403rg.The resource group name used for this quickstart is myspark20180403rg.
    UmístěníLocation Vyberte umístění skupiny prostředků.Select a location for the resource group. Šablona toto umístění používá k vytvoření clusteru i jako výchozí úložiště clusteru.The template uses this location for creating the cluster as well as for the default cluster storage. V tomto rychlém startu se používá umístění USA – východ 2.The location used for this quickstart is East US 2.

    Vytvoření clusteru Spark v HDInsight se základní konfiguracíCreate HDInsight Spark cluster basic configurations

    Výběrem Další pokračujte na stránku Úložiště.Select Next to continue to the Storage page.

  3. V části Úložiště zadejte tyto hodnoty:Under Storage, provide the following values:

    • Vyberte účet úložiště: vyberte Vytvořit nový a pak zadejte název nového účtu úložiště.Select a Storage account: select Create new, and then give a name to the new storage account. V tomto rychlém startu se používá název účtu úložiště myspark20180403store.The storage account name used for this quickstart is myspark20180403store.

      Vytvoření clusteru Spark v HDInsight s konfigurací úložištěCreate HDInsight Spark cluster storage configurations

      Poznámka

      Na snímku obrazovky je vidět Vybrat existující.On the screenshot, it shows Select existing. Odkaz se přepíná mezi Vytvořit nový a Vybrat existující.The link toggles between Create new and Select existing.

      Výchozí kontejner má výchozí název.The Default container has a default name. Pokud chcete, můžete název změnit.You can change the name if you want.

      Pomocí Další pokračujte na stránku Souhrn.Select Next to continue to the Summary page.

  4. V Souhrnu vyberte Vytvořit.On Summary, select Create. Vytvoření clusteru trvá přibližně 20 minut.It takes about 20 minutes to create the cluster. Než budete moct pokračovat k další relaci, musí se cluster nejdříve vytvořit.The cluster must be created before you can proceed to the next session.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být způsobeno tím, že k tomu nemáte správná oprávnění.If you run into an issue with creating HDInsight clusters, it could be that you do not have the right permissions to do so. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.For more information, see Access control requirements.

Vytvoření poznámkového bloku JupyterCreate a Jupyter notebook

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky.Jupyter Notebook is an interactive notebook environment that supports various programming languages. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.The notebook allows you to interact with your data, combine code with markdown text and perform simple visualizations.

  1. Otevřete web Azure Portal.Open the Azure portal.

  2. Vyberte Clustery HDInsight a pak vyberte cluster, který jste vytvořili.Select HDInsight clusters, and then select the cluster you created.

    otevření clusteru HDInsight na webu Azure Portal

  3. Na portálu vyberte Řídicí panely clusteru a pak vyberte Jupyter Notebook.From the portal, select Cluster dashboards, and then select Jupyter Notebook. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.If prompted, enter the cluster login credentials for the cluster.

    Otevření poznámkového bloku Jupyter pro spuštění interaktivního dotazu Spark SQLOpen Jupyter Notebook to run interactive Spark SQL query

  4. Vyberte Nový > PySpark a vytvořte poznámkový blok.Select New > PySpark to create a notebook.

    Vytvoření poznámkového bloku Jupyter pro spuštění interaktivního dotazu Spark SQLCreate a Jupyter Notebook to run interactive Spark SQL query

    Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).A new notebook is created and opened with the name Untitled(Untitled.pynb).

Spouštění příkazů Spark SQLRun Spark SQL statements

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat.SQL (Structured Query Language) is the most common and widely used language for querying and defining data. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.Spark SQL functions as an extension to Apache Spark for processing structured data, using the familiar SQL syntax.

  1. Ověřte, že je jádro připravené.Verify the kernel is ready. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek.The kernel is ready when you see a hollow circle next to the kernel name in the notebook. Plný kruh označuje, že je jádro zaneprázdněno.Solid circle denotes that the kernel is busy.

    Dotaz Hive v HDInsight SparkHive query in HDInsight Spark

    Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí.When you start the notebook for the first time, the kernel performs some tasks in the background. Počkejte, až bude jádro připravené.Wait for the kernel to be ready.

  2. Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte.Paste the following code in an empty cell, and then press SHIFT + ENTER to run the code. Příkaz vypíše tabulky Hive v clusteru:The command lists the Hive tables on the cluster:

    %%sql
    SHOW TABLES
    

    Pokud používáte poznámkový blok Jupyter s clusterem HDInsight Spark, získáte přednastavený kontext sqlContext, který můžete použít ke spouštění dotazů Hive pomocí Spark SQL.When you use a Jupyter Notebook with your HDInsight Spark cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil přednastavený kontext sqlContext.%%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight.The query retrieves the top 10 rows from a Hive table (hivesampletable) that comes with all HDInsight clusters by default. Získání výsledků trvá přibližně 30 sekund.It takes about 30 seconds to get the results. Výstup bude vypadat následovně:The output looks like:

    Dotaz Hive v HDInsight SparkHive query in HDInsight Spark

    Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku.Every time you run a query in Jupyter, your web browser window title shows a (Busy) status along with the notebook title. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.You also see a solid circle next to the PySpark text in the top-right corner.

  3. Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.Run another query to see the data in hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.The screen shall refresh to show the query output.

    Výstup dotazu Hive v HDInsight SparkHive query output in HDInsight Spark

  4. V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit.From the File menu on the notebook, select Close and Halt. Ukončením poznámkového bloku se uvolní prostředky clusteru.Shutting down the notebook releases the cluster resources.

Vyčištění prostředkůClean up resources

HDInsight ukládá vaše data ve službě Azure Storage nebo v úložišti Azure Data Lake, takže můžete cluster bezpečně odstranit, když se nepoužívá.HDInsight saves your data in Azure Storage or Azure Data Lake Storage, so you can safely delete a cluster when it is not in use. Za cluster služby HDInsight se účtují poplatky, i když se nepoužívá.You are also charged for an HDInsight cluster, even when it is not in use. Vzhledem k tomu, že poplatky za cluster představují několikanásobek poplatků za úložiště, dává ekonomický smysl odstraňovat clustery, které nejsou používány.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Přepněte zpět na web Azure Portal a vyberte Odstranit.Switch back to the Azure portal, and select Delete.

Odstranění clusteru HDInsightDelete an HDInsight cluster

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků.You can also select the resource group name to open the resource group page, and then select Delete resource group. Odstraněním skupiny prostředků odstraníte cluster HDInsight Spark i výchozí účet úložiště.By deleting the resource group, you delete both the HDInsight Spark cluster, and the default storage account.

Další krokyNext steps

V tomto rychlém startu jste zjistili, jak vytvořit cluster HDInsight Spark a spustit základní dotaz Spark SQL.In this quickstart, you learned how to create an HDInsight Spark cluster and run a basic Spark SQL query. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight Spark spouštět interaktivní dotazy na ukázková data.Advance to the next tutorial to learn how to use an HDInsight Spark cluster to run interactive queries on sample data.