Szybki Start: Tworzenie klastra Apache Spark w usłudze Azure HDInsight przy użyciu Azure PortalQuickstart: Create Apache Spark cluster in Azure HDInsight using Azure portal

W tym przewodniku szybki start użyjesz Azure Portal, aby utworzyć klaster Apache Spark w usłudze Azure HDInsight.In this quickstart, you use the Azure portal to create an Apache Spark cluster in Azure HDInsight. Następnie utworzysz Jupyter Notebook i użyjesz go do uruchamiania zapytań Spark SQL w odniesieniu do tabel Apache Hive.You then create a Jupyter Notebook, and use it to run Spark SQL queries against Apache Hive tables. Azure HDInsight jest zarządzaną usługą analityczną typu „open source” o szerokim zakresie, z przeznaczeniem dla przedsiębiorstw.Azure HDInsight is a managed, full-spectrum, open-source analytics service for enterprises. Platforma Apache Spark dla usługi HDInsight umożliwia szybkie analizowanie danych i przetwarzanie klastrów przy użyciu przetwarzania w pamięci.The Apache Spark framework for HDInsight enables fast data analytics and cluster computing using in-memory processing. Jupyter Notebook pozwala na posługiwanie się danymi, łączenie kodu z tekstem z promocji i wykonywanie prostych wizualizacji.Jupyter Notebook lets you interact with your data, combine code with markdown text, and do simple visualizations.

Szczegółowe wyjaśnienie dostępnych konfiguracji można znaleźć w temacie Konfigurowanie klastrów w usłudze HDInsight.For in-depth explanations of available configurations, see Set up clusters in HDInsight. Aby uzyskać więcej informacji na temat korzystania z portalu do tworzenia klastrów, zobacz Tworzenie klastrów w portalu.For more information regarding the use of the portal to create clusters, see Create clusters in the portal.

Jeśli używasz wielu klastrów razem, należy utworzyć sieć wirtualną, a jeśli używasz klastra Spark, należy również użyć łącznika magazynu programu Hive.If you're using multiple clusters together, you'll want to create a virtual network, and if you're using a Spark cluster you'll also want to use the Hive Warehouse Connector. Aby uzyskać więcej informacji, zobacz Planowanie sieci wirtualnej dla usługi Azure HDInsight i integrowanie Apache Spark i Apache Hive z łącznikiem magazynu Hive.For more information, see Plan a virtual network for Azure HDInsight and Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector.

Ważne

Opłaty za klastry usługi HDInsight są naliczane proporcjonalnie za minutę, niezależnie od ich użycia.Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Pamiętaj o usunięciu klastra po zakończeniu korzystania z niego.Be sure to delete your cluster after you have finished using it. Aby uzyskać więcej informacji, zobacz sekcję Czyszczenie zasobów w tym artykule.For more information, see the Clean up resources section of this article.

Wymagania wstępnePrerequisites

Konto platformy Azure z aktywną subskrypcją.An Azure account with an active subscription. Utwórz konto bezpłatnie.Create an account for free.

Tworzenie klastra platformy Apache Spark w usłudze HDInsightCreate an Apache Spark cluster in HDInsight

Użyj Azure Portal, aby utworzyć klaster usługi HDInsight, który korzysta z obiektów BLOB w usłudze Azure Storage jako magazynu klastra.You use the Azure portal to create an HDInsight cluster that uses Azure Storage Blobs as the cluster storage. Aby uzyskać więcej informacji na temat korzystania z usługi Data Lake Storage 2. generacji, zobacz Szybki start: konfigurowanie klastrów w usłudze HDInsight.For more information on using Data Lake Storage Gen2, see Quickstart: Set up clusters in HDInsight.

  1. Zaloguj się w witrynie Azure Portal.Sign in to the Azure portal.

  2. W górnym menu wybierz pozycję + Utwórz zasób.From the top menu, select + Create a resource.

    Azure Portal utworzyć zasobu źródła "Border =" true ":::

  3. Wybierz pozycję Analiza > Azure HDInsight , aby przejść do strony Tworzenie klastra usługi HDInsight .Select Analytics > Azure HDInsight to go to the Create HDInsight cluster page.

  4. Na karcie podstawowe podaj następujące informacje:From the Basics tab, provide the following information:

    WłaściwośćProperty OpisDescription
    SubskrypcjaSubscription Z listy rozwijanej wybierz subskrypcję platformy Azure używaną na potrzeby klastra.From the drop-down list, select the Azure subscription that's used for the cluster.
    Grupa zasobówResource group Z listy rozwijanej wybierz istniejącą grupę zasobów lub wybierz pozycję Utwórz nową.From the drop-down list, select your existing resource group, or select Create new.
    Nazwa klastraCluster name Podaj globalnie unikatową nazwę.Enter a globally unique name.
    Region (Region)Region Z listy rozwijanej wybierz region, w którym tworzony jest klaster.From the drop-down list, select a region where the cluster is created.
    Typ klastraCluster type Wybierz pozycję Wybierz typ klastra, aby otworzyć listę.Select Select cluster type to open a list. Z listy wybierz pozycję Spark.From the list, select Spark.
    Wersja klastraCluster version Po wybraniu typu klastra pole zostanie automatycznie wypełnione przy użyciu domyślnej wersji.This field will auto-populate with the default version once the cluster type has been selected.
    Nazwa użytkownika logowania klastraCluster login username Wprowadź nazwę użytkownika logowania klastra.Enter the cluster login username. Nazwa domyślna to admin. To konto jest używane do logowania się do Jupyter Notebook w dalszej części przewodnika Szybki Start.The default name is admin. You use this account to login in to the Jupyter Notebook later in the quickstart.
    Hasło logowania klastraCluster login password Wprowadź hasło logowania klastra.Enter the cluster login password.
    Nazwa użytkownika protokołu SSH (Secure Shell)Secure Shell (SSH) username Wprowadź nazwę użytkownika protokołu SSH.Enter the SSH username. Nazwą użytkownika protokołu SSH używaną w tym przewodniku Szybki start jest sshuser.The SSH username used for this quickstart is sshuser. Domyślnie to konto współdzieli hasło z kontem Nazwa użytkownika logowania klastra.By default, this account shares the same password as the Cluster Login username account.

    Zrzut ekranu przedstawia tworzenie klastra usługi H Insights z wybraną kartą podstawowe.

    Wybierz pozycję Dalej: magazyn >> , aby kontynuować na stronie Magazyn .Select Next: Storage >> to continue to the Storage page.

  5. W obszarze Magazyn podaj następujące wartości:Under Storage, provide the following values:

    WłaściwośćProperty OpisDescription
    Podstawowy typ magazynuPrimary storage type Użyj wartości domyślnej usługi Azure Storage.Use the default value Azure Storage.
    Metoda wybieraniaSelection method Użyj wartości domyślnej Wybierz z listy.Use the default value Select from list.
    Konto magazynu podstawowegoPrimary storage account Użyj automatycznie wypełnionej wartości.Use the auto-populated value.
    KontenerContainer Użyj automatycznie wypełnionej wartości.Use the auto-populated value.

    Zrzut ekranu przedstawia tworzenie klastra usługi H Insights z wybraną kartą magazyn.

    Wybierz pozycję Recenzja + Utwórz , aby kontynuować.Select Review + create to continue.

  6. W obszarze Recenzja + tworzenie wybierz pozycję Utwórz.Under Review + create, select Create. Utworzenie klastra trwa około 20 minut.It takes about 20 minutes to create the cluster. Przed przejściem do następnej sesji należy utworzyć klaster.The cluster must be created before you can proceed to the next session.

Jeśli wystąpi problem z tworzeniem klastrów usługi HDInsight, może to oznaczać, że nie masz odpowiednich uprawnień, aby to zrobić.If you run into an issue with creating HDInsight clusters, it could be that you don't have the right permissions to do so. Aby uzyskać więcej informacji, zobacz Wymagania dotyczące kontroli dostępu.For more information, see Access control requirements.

Tworzenie notesu JupyterCreate a Jupyter Notebook

Jupyter Notebook to interakcyjne środowisko notesu, które obsługuje różne języki programowania.Jupyter Notebook is an interactive notebook environment that supports various programming languages. Notes pozwala na interakcję z danymi, łączenie kodu z tekstem markdown i wykonywanie prostych wizualizacji.The notebook allows you to interact with your data, combine code with markdown text and perform simple visualizations.

  1. W przeglądarce sieci Web przejdź do https://CLUSTERNAME.azurehdinsight.net/jupyter lokalizacji, gdzie CLUSTERNAME jest nazwą klastra.From a web browser, navigate to https://CLUSTERNAME.azurehdinsight.net/jupyter, where CLUSTERNAME is the name of your cluster. Jeśli zostanie wyświetlony monit, wprowadź poświadczenia logowania dla klastra.If prompted, enter the cluster login credentials for the cluster.

  2. Wybierz pozycję New > PySpark , aby utworzyć Notes.Select New > PySpark to create a notebook.

    Utwórz Jupyter Notebook do uruchamiania interakcyjnego zapytania Spark SQL

    Zostanie utworzony i otwarty nowy notes o nazwie Untitled (Untitled.pynb).A new notebook is created and opened with the name Untitled(Untitled.pynb).

Uruchamianie Apache Spark instrukcji SQLRun Apache Spark SQL statements

SQL (Structured Query Language) to najczęściej używany język służący do definiowania danych i wykonywania zapytań na tych danych.SQL (Structured Query Language) is the most common and widely used language for querying and defining data. Rozwiązanie Spark SQL stanowi rozszerzenie platformy Apache Spark służące do przetwarzania danych strukturalnych za pomocą dobrze znanej składni języka SQL.Spark SQL functions as an extension to Apache Spark for processing structured data, using the familiar SQL syntax.

  1. Sprawdź, czy jądro jest gotowe.Verify the kernel is ready. Gotowość jądra jest sygnalizowana pustym okręgiem obok nazwy jądra w notesie.The kernel is ready when you see a hollow circle next to the kernel name in the notebook. Pełne kółko oznacza, że jądro jest zajęte.Solid circle denotes that the kernel is busy.

    Zrzut ekranu przedstawia okno Jupyter ze wskaźnikiem PySpark. wskaźnik Ark ". Border = "true":::border="true":::

    Podczas pierwszego uruchamiania notesu jądro wykonuje pewne zadania w tle.When you start the notebook for the first time, the kernel performs some tasks in the background. Poczekaj, aż jądro będzie gotowe.Wait for the kernel to be ready.

  2. Wklej następujący kod do pustej komórki, a następnie naciśnij klawisze SHIFT + ENTER, aby go uruchomić.Paste the following code in an empty cell, and then press SHIFT + ENTER to run the code. Polecenie wyświetla listę tabel Hive w klastrze:The command lists the Hive tables on the cluster:

    %%sql
    SHOW TABLES
    

    W przypadku korzystania z Jupyter Notebook z klastrem usługi HDInsight zostanie wyświetlone ustawienie wstępne, sqlContext za pomocą którego można uruchamiać zapytania Hive przy użyciu platformy Spark SQL.When you use a Jupyter Notebook with your HDInsight cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. Wyrażenie %%sql informuje notes Jupyter o konieczności użycia ustawienia wstępnego sqlContext do uruchomienia zapytania programu Hive.%%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. Zapytanie pobiera pierwszych 10 wierszy z tabeli programu Hive (hivesampletable), która jest dostępna domyślnie na wszystkich klastrach usługi HDInsight.The query retrieves the top 10 rows from a Hive table (hivesampletable) that comes with all HDInsight clusters by default. Uzyskanie wyników zajmuje około 30 sekund.It takes about 30 seconds to get the results. Dane wyjściowe wyglądają następująco:The output looks like:

    Zrzut ekranu przedstawia okno Jupyter dla notesu utworzonego w tym przewodniku Szybki Start. jest szybki start ". Border = "true":::border="true":::

    Podczas każdego uruchomienia zapytania w programie Jupyter w tytule okna przeglądarki internetowej wyświetlany jest stan (Busy) (Zajęty) wraz z tytułem notesu.Every time you run a query in Jupyter, your web browser window title shows a (Busy) status along with the notebook title. Widoczne jest także pełne kółko obok tekstu PySpark w prawym górnym rogu.You also see a solid circle next to the PySpark text in the top-right corner.

  3. Uruchom inne zapytanie, aby wyświetlić dane z tabeli hivesampletable.Run another query to see the data in hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Ekran zostanie odświeżony w celu wyświetlenia wyników zapytania.The screen shall refresh to show the query output.

    Dane wyjściowe zapytania programu Hive w usłudze HDInsight Insights "Border =" true ":::

  4. W menu File (Plik) w notesie wybierz pozycję Close and Halt (Zamknij i zatrzymaj).From the File menu on the notebook, select Close and Halt. Zamknięcie notesu spowoduje zwolnienie zasobów klastra.Shutting down the notebook releases the cluster resources.

Czyszczenie zasobówClean up resources

Usługa HDInsight zapisuje dane w usłudze Azure Storage lub Azure Data Lake Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany.HDInsight saves your data in Azure Storage or Azure Data Lake Storage, so you can safely delete a cluster when it isn't in use. Opłata jest naliczana również za klaster usługi HDInsight, nawet wtedy, gdy nie jest używana.You're also charged for an HDInsight cluster, even when it isn't in use. Ze względu na to, że opłaty za klaster są dużo razy większe niż opłaty za magazyn, sprawia to, że należy usunąć klastry, gdy nie są używane.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use. Jeśli planujesz natychmiastowe rozpoczęcie pracy z samouczkiem z listy Następne kroki, warto zachować klaster.If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Przejdź z powrotem do witryny Azure Portal, a następnie wybierz pozycję Usuń.Switch back to the Azure portal, and select Delete.

Azure Portal usunąć klastra usługi HDInsight Cluster Insights "Border =" true ":::

Dodatkowo możesz wybrać nazwę grupy zasobów, aby otworzyć stronę grupy zasobów, a następnie wybrać pozycję Usuń grupę zasobów.You can also select the resource group name to open the resource group page, and then select Delete resource group. Usuwając grupę zasobów, należy usunąć zarówno klaster usługi HDInsight, jak i domyślne konto magazynu.By deleting the resource group, you delete both the HDInsight cluster, and the default storage account.

Następne krokiNext steps

W tym przewodniku szybki start przedstawiono sposób tworzenia klastra Apache Spark w usłudze HDInsight i uruchamiania podstawowego zapytania Spark SQL.In this quickstart, you learned how to create an Apache Spark cluster in HDInsight and run a basic Spark SQL query. Przejdź do następnego samouczka, aby dowiedzieć się, jak uruchamiać interakcyjne zapytania dotyczące przykładowych danych za pomocą klastra usługi HDInsight.Advance to the next tutorial to learn how to use an HDInsight cluster to run interactive queries on sample data.