Rychlý start: Začínáme s Apache Hadoop a Apache Hive v Azure HDInsight pomocí webu Azure portalQuickstart: Get started with Apache Hadoop and Apache Hive in Azure HDInsight using the Azure portal

V tomto článku se dozvíte, jak vytvořit Apache Hadoop clusterů v HDInsight pomocí webu Azure portal a potom spouštět úlohy Apache Hive v HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. Většina úloh Hadoop jsou dávkové úlohy.Most of Hadoop jobs are batch jobs. Vytvoříte cluster, spustíte některé úlohy a pak cluster odstraníte.You create a cluster, run some jobs, and then delete the cluster. V tomto článku provedete všechny tři úlohy.In this article, you perform all the three tasks.

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster HDInsight Hadoop.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. K vytvoření clusteru můžete použít také šablonu Azure Resource Manageru.You can also create a cluster using the Azure Resource Manager template.

Aktuálně se HDInsight dodává se sedmi různými typy clusteru.Currently HDInsight comes with seven different cluster types. Každý typ clusteru podporuje odlišnou sadu komponent.Each cluster type supports a different set of components. Všechny typy clusteru podporují Hive.All cluster types support Hive. Seznam podporovaných součásti v HDInsight najdete v tématu co je nového ve verzích clusterů systému Apache Hadoop poskytovaných službou HDInsight?For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

Vytvořit cluster Apache HadoopCreate an Apache Hadoop cluster

V této části vytvoříte cluster Hadoop v HDInsight pomocí webu Azure Portal.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Přihlaste se k webu Azure Portal.Log in to the Azure portal.

  2. Na webu Azure Portal vyberte Vytvořit prostředek > Data a analýzy > HDInsight.In the Azure portal, select Create a resource > Data + Analytics > HDInsight.

    Databricks na webu Azure PortalDatabricks on Azure portal

  3. V části HDInsight > Rychle vytvořit > Základy zadejte hodnoty podle tohoto snímku obrazovky:Under HDInsight > Quick Create > Basics, provide the values as suggested in the following screenshot:

    HDInsight Linux začínáme zadání základních hodnot clusteruHDInsight Linux get started provide cluster basic values

    Zadejte nebo vyberte tyto hodnoty:Enter or select the following values:

    VlastnostProperty PopisDescription
    Název clusteruCluster name Zadejte název clusteru Hadoop.Enter a name for the Hadoop cluster. Vzhledem k tomu, že všechny clustery ve službě HDInsight sdílejí stejný obor názvů DNS, musí být tento název jedinečný.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. Název může mít až 59 znaků a může obsahovat písmena, číslice a pomlčky.The name can consist of up to 59 characters includings letters, numbers, and hyphens. První a poslední znak názvu nemůže být pomlčka.The first and last characters of the name cannot be hyphens.
    PředplatnéSubscription Vyberte své předplatné Azure.Select your Azure subscription.
    Typ clusteruCluster Type Tohle zatím přeskočte.Skip this for now. Tuto hodnotu zadáte v dalším kroku postupu.You provide this input in the next step of this procedure.
    Přihlašovací uživatelské jméno a heslo clusteruCluster login username and password Výchozí přihlašovací jméno je admin (správce). Heslo musí mít minimálně 10 znaků a musí obsahovat alespoň jedno číslo, jedno velké písmeno, jedno malé písmeno a jeden jiný než alfanumerický znak (kromě znaků ' " ` ).The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Nezadávejte běžné heslo, jako je „Pass@word1“.Make sure you do not provide common passwords such as "Pass@word1".
    Uživatelské jméno SSHSSH username Výchozí uživatelské jméno je sshuser (uživatelssh).The default username is sshuser. Pro uživatelské jméno SSH můžete zadat jiný název.You can provide another name for the SSH username.
    Použít stejné heslo jako pro přihlášení ke clusteruUse same password as cluster login Pokud toto políčko zaškrtnete, použije se stejné heslo pro uživatele SSH, jaké jste zadali pro přihlášení uživatele clusteru.Select this checkbox to use the same password for SSH user as the one you provided for the cluster login user.
    Skupina prostředkůResource group Vytvořte skupinu prostředků nebo vyberte existující.Create a resource group or select an existing resource group. Skupina prostředků je kontejner komponent Azure.A resource group is a container of Azure components. V tomto případě skupina prostředků obsahuje cluster HDInsight a závislý účet služby Azure Storage.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    UmístěníLocation Vyberte umístění Azure, ve kterém chcete cluster vytvořit.Select an Azure location where you want to create your cluster. Pro dosažení lepšího výkonu zvolte co nejbližší umístění.Choose a location closer to you for better performance.
  4. Vyberte Typ clusteru a pak zadejte hodnoty, jak ukazuje tento snímek obrazovky:Select Cluster type and then provide the inputs as shown in the following screenshot:

    HDInsight Linux začínáme zadání základních hodnot clusteruHDInsight Linux get started provide cluster basic values

    Vyberte tyto hodnoty:Select the following values:

    VlastnostProperty PopisDescription
    Typ clusteruCluster type Vyberte HadoopSelect Hadoop
    Operační systémOperating system Vyberte LinuxSelect Linux
    VerzeVersion Vyberte Hadoop 2.7.3 (HDI 3.6)Select Hadoop 2.7.3 (HDI 3.6)

    Klikněte na Vybrat a pak na Další.Click Select and then click Next.

  5. Na kartě Úložiště zadejte hodnoty, jak ukazuje tento snímek obrazovky:In the Storage tab, provide the inputs as shown in the following screenshot:

    HDInsight Linux začínáme zadání hodnot úložiště clusteruHDInsight Linux get started provide cluster storage values

    Vyberte tyto hodnoty:Select the following values:

    VlastnostProperty PopisDescription
    Typ primárního úložištěPrimary storage type Pro účely tohoto článku vyberte úložiště Azure, aby se jako výchozí účet úložiště použil Azure Storage Blob.For this article, select Azure storage to use Azure Storage Blob as the default storage account. Jako výchozí úložiště můžete vybrat také úložiště Azure Data Lake.You can also use Azure Data Lake Storage as the default storage.
    Metoda výběruSelection method Pro účely tohoto článku vyberte Moje předplatné, aby se použil účet úložiště z vašeho předplatného Azure.For this article, select My subscriptions to use a storage account from your Azure subscription. Pokud chcete používat účet úložiště z jiných předplatných, vyberte Přístupový klíč a pak zadejte přístupový klíč k účtu.To use storage account from other subscriptions, select Access key and then provide the access key for that account.
    Vytvoření nového účtu úložištěCreate a new storage account Zadejte název účtu úložiště.Provide a name for the storage account.

    Přijměte všechny ostatní výchozí hodnoty a pak vyberte Další.Accept all other default values and then select Next.

  6. Na kartě Souhrn zkontrolujte hodnoty, které jste vybrali v dřívějších krocích.In the Summary tab, verify the values you selected in the earlier steps.

    HDInsight Linux začínáme souhrn clusteruHDInsight Linux get started cluster summary

  7. Vyberte Vytvořit.Select Create. Na řídicím panelu portálu by se měla zobrazit nová dlaždice s názvem Odesílá se nasazení pro HDInsight.You shall see a new tile titled Submitting deployment for HDInsight on the portal dashboard. Vytvoření clusteru trvá přibližně 20 minut.It takes about 20 minutes to create a cluster.

    Počáteční skupina prostředků HDInsight LinuxHDInsight Linux get started resource group

  8. Po vytvoření clusteru se zobrazí stránka přehledu clusteru na webu Azure Portal.Once the cluster is created, you see the cluster overview page in the Azure portal.

    Počáteční nastavení clusteru HDInsight LinuxHDInsight Linux get started cluster settings

    Každý cluster obsahuje závislost účtu Azure Storage nebo účtu Azure Data Lake.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Označuje se jako výchozí účet úložiště.It is referred as the default storage account. Cluster HDInsight a jeho výchozí účet úložiště musí být umístěny společně a nacházet se ve stejné oblasti Azure.HDInsight cluster and its default storage account must be co-located in the same Azure region. Odstraněním clusterů nedojde k odstranění účtu úložiště.Deleting clusters does not delete the storage account.

    Poznámka

    Další metody vytváření clusterů a principy vlastnosti používaných v tomto kurzu najdete v části Vytváření clusterů HDInsight.For other cluster creation methods and understanding the properties used in this tutorial, see Create HDInsight clusters.

Spustit dotazy Apache HiveRun Apache Hive queries

Apache Hive je nejoblíbenější součástí používanou v HDInsight.Apache Hive is the most popular component used in HDInsight. Existuje mnoho způsobů spouštění úloh Hive v HDInsight.There are many ways to run Hive jobs in HDInsight. V tomto kurzu použijete zobrazení Ambari Hive z portálu.In this tutorial, you use the Ambari Hive view from the portal. Další metody pro odesílání úloh Hive najdete v části Použití Hive v HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Pokud chcete otevřít Ambari, vyberte Řídicí panel clusteru, jak je znázorněno na předchozím snímku obrazovky.To open Ambari, from the previous screenshot, select Cluster Dashboard. Můžete také přejít na adresu https://<název_clusteru>.azurehdinsight.net, kde <název_clusteru> je název clusteru vytvořeného v předchozí části.You can also browse to https://<ClusterName>.azurehdinsight.net, where <ClusterName> is the cluster you created in the previous section.

    Počáteční řídicí panel clusteru HDInsight LinuxHDInsight Linux get started cluster dashboard

  2. Zadejte uživatelské jméno a heslo Hadoop, které jste zadali při vytváření clusteru.Enter the Hadoop username and password that you specified while creating the cluster. Výchozí uživatelské jméno admin.The default username is admin.

  3. Otevřete Zobrazení Hive, jak je znázorněno na následujícím snímku obrazovky:Open Hive View as shown in the following screenshot:

    Výběr zobrazení AmbariSelecting Ambari views

  4. Na kartě DOTAZ vložte následující příkazy HiveQL do pracovního listu:In the QUERY tab, paste the following HiveQL statements into the worksheet:

     SHOW TABLES;
    

    Zobrazení Hive služby HDInsightHDInsight Hive views

  5. Vyberte Provést.Select Execute. Karta VÝSLEDKY se zobrazí pod kartou DOTAZ a zobrazí informace o úloze.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Po dokončení dotazu se na kartě DOTAZ zobrazí výsledky operace.Once the query has finished, The QUERY tab displays the results of the operation. Zobrazí jedna tabulka s názvem hivesampletable.You shall see one table called hivesampletable. Tato vzorová tabulka Hive obsahuje všechny clustery HDInsight.This sample Hive table comes with all the HDInsight clusters.

    Zobrazení Hive služby HDInsightHDInsight Hive views

  6. Opakujte kroky 4 a 5 a spusťte následující dotaz:Repeat step 4 and step 5 to run the following query:

     SELECT * FROM hivesampletable;
    
  7. Výsledky dotazu můžete také uložit.You can also save the results of the query. Vyberte tlačítko s nabídkou na pravé straně a určete, jestli chcete stáhnout výsledky jako soubor CSV nebo je uložit do účtu úložiště přidruženého ke clusteru.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Uložení výsledku dotazu HiveSave result of Hive query

Po dokončení úlohy Hive můžete Exportovat výsledky do databáze Azure SQL nebo databáze systému SQL Server, můžete také zobrazit výsledky pomocí aplikace Excel.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Další informace o používání Hive v HDInsight najdete v tématu použití Apache Hive a HiveQL s Apache Hadoop v HDInsight k analýze ukázkového souboru Apache log4j.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Řešení potížíTroubleshoot

Pokud narazíte na problémy s vytvářením clusterů HDInsight, podívejte se na požadavky na řízení přístupu.If you run into issues with creating HDInsight clusters, see access control requirements.

Vyčištění prostředkůClean up resources

Po dokončení kurzu můžete cluster odstranit.After you complete the tutorial, you may want to delete the cluster. Pomocí HDInsight jsou vaše data uložena v Azure Storage, takže můžete clusteru bezpečně odstranit, pokud není používán.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Za cluster služby HDInsight se účtují poplatky, i když se nepoužívá.You are also charged for an HDInsight cluster, even when it is not in use. Vzhledem k tomu, že poplatky za cluster představují několikanásobek poplatků za úložiště, dává ekonomický smysl odstraňovat clustery, které nejsou používány.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Poznámka

Pokud rovnou pokračujete k dalšímu kurzu, ve kterém se dozvíte, jak spouštět operace ETL s využitím Hadoopu ve službě HDInsight, můžete cluster nechat spuštěný.If you are immediately proceeding to the next tutorial to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Toto je vzhledem k tomu, že v tomto kurzu, budete muset znovu vytvořit Hadoop cluster.This is because in the tutorial you have to create a Hadoop cluster again. Pokud ale nebudete hned pokračovat dalším kurzem, musíte teď cluster odstranit.However, if you are not going through the next tutorial right away, you must delete the cluster now.

Postup odstranění clusteru a/nebo výchozího účtu úložištěTo delete the cluster and/or the default storage account

  1. Vraťte se na kartu prohlížeče s webem Azure Portal.Go back to the browser tab where you have the Azure portal. Měli byste být na stránce s přehledem clusteru.You shall be on the cluster overview page. Pokud chcete odstranit jenom cluster, ale zachovat výchozí účet úložiště, vyberte Odstranit.If you only want to delete the cluster but retain the default storage account, select Delete.

    Odstranění clusteru HDInsightHDInsight delete cluster

  2. Pokud chcete odstranit cluster i výchozí účet úložiště, vyberte název skupiny prostředků (zvýrazněný na předchozím snímku obrazovky) a otevřete stránku skupiny prostředků.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Vyberte Odstranit skupinu prostředků a odstraňte skupinu prostředků obsahující cluster a výchozí účet úložiště.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Upozorňujeme, že odstraněním skupiny prostředků odstraníte účet úložiště.Note deleting the resource group deletes the storage account. Pokud chcete zachovat účet úložiště, zvolte odstranění samotného clusteru.If you want to keep the storage account, choose to delete the cluster only.

Další krokyNext steps

V tomto kurzu jste se naučili, jak vytvořit cluster HDInsight se systémem Linux pomocí šablony Resource Manageru a jak provádět základní dotazy Hive.In this tutorial, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. V dalším článku se dozvíte, jak pomocí Hadoopu ve službě HDInsight provést operaci ETL (extrakce, transformace a načítání).In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.

Pokud chcete začít pracovat s vlastními daty a potřebujete další informace o ukládání dat službou HDInsight nebo o tom, jak data do této služby nahrát, přečtěte si následující články:If you're ready to start working with your own data and need to know more about how HDInsight stores data or how to get data into HDInsight, see the following articles:

Další informace o analýze dat pomocí HDInsight najdete v následujících článcích:To learn more about analyzing data with HDInsight, see the following articles:

Pokud potřebujete další informace o vytváření a správě clusteru HDInsight, přečtěte si následující články:If you'd like to learn more about creating or managing an HDInsight cluster, see the following articles: