Nastavení clusterů v HDInsight se Apache Hadoop, Apache Spark, Apache Kafka a dalšíSet up clusters in HDInsight with Apache Hadoop, Apache Spark, Apache Kafka, and more

Zjistěte, jak vytvořit a nakonfigurovat clusterů v HDInsight se Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase, služby ML nebo Apache Storm.Learn how to set up and configure clusters in HDInsight with Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase, ML Services, or Apache Storm. Také zjistěte, jak přizpůsobit clustery a zvýšit zabezpečení pomocí připojení k doméně.Also, learn how to customize clusters and add security by joining them to a domain.

Hadoop cluster se skládá z několika virtuálních počítačů (uzlů), které se používají pro distribuované zpracování úloh.A Hadoop cluster consists of several virtual machines (nodes) that are used for distributed processing of tasks. Azure HDInsight zpracovává podrobnosti implementace, instalace a konfigurace jednotlivých uzlů, takže budete muset zadat informace o obecné konfiguraci.Azure HDInsight handles implementation details of installation and configuration of individual nodes, so you only have to provide general configuration information.

Důležité

Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním.HDInsight cluster billing starts once a cluster is created and stops when the cluster is deleted. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Zjistěte, jak odstranění clusteru.Learn how to delete a cluster.

Metody instalace clusteruCluster setup methods

V následující tabulce jsou uvedeny různé metody, které slouží k nastavení clusteru HDInsight.The following table shows the different methods you can use to set up an HDInsight cluster.

Clustery vytvořené pomocíClusters created with Webový prohlížečWeb browser Příkazový řádekCommand line REST APIREST API Sada SDKSDK
Azure PortalAzure portal      
Azure Data FactoryAzure Data Factory
Azure CLIAzure CLI      
Azure PowerShellAzure PowerShell      
cURLcURL    
.NET SDK.NET SDK      
Šablony Azure Resource ManageruAzure Resource Manager templates      

Rychlé vytvoření: Nastavení základní clusteruQuick create: Basic cluster setup

Tento článek vás provede instalací v webu Azure portal, kde můžete vytvořit cluster HDInsight pomocí rychlé vytvoření nebo vlastní.This article walks you through setup in the Azure portal, where you can create an HDInsight cluster using Quick create or Custom.

hdinsight vytvořit možnosti Vlastní rychlé vytvoření

Postupujte podle pokynů na obrazovce a proveďte nastavení základního clusteru.Follow instructions on the screen to do a basic cluster setup. Níže jsou uvedené podrobnosti pro:Details are provided below for:

Název skupiny prostředkůResource group name

Azure Resource Manageru pomáhá při práci s prostředky v aplikaci jako se skupinou, označuje jako skupina prostředků Azure.Azure Resource Manager helps you work with the resources in your application as a group, referred to as an Azure resource group. Můžete nasadit, aktualizovat, monitorovat nebo odstranit všechny prostředky pro vaši aplikaci v rámci jediné koordinované operace.You can deploy, update, monitor, or delete all the resources for your application in a single coordinated operation.

Typy clusterů a konfiguraceCluster types and configuration

Azure HDInsight aktuálně poskytuje následující typy clusteru, každý s sada součástí k poskytování určité funkce.Azure HDInsight currently provides the following cluster types, each with a set of components to provide certain functionalities.

Důležité

Clustery HDInsight jsou k dispozici v různých typů, které pro jedné úlohy nebo technologii.HDInsight clusters are available in various types, each for a single workload or technology. Neexistuje žádná podporovaná metoda pro vytvoření clusteru, který kombinuje více typů, jako je Storm a HBase na jednom clusteru.There is no supported method to create a cluster that combines multiple types, such as Storm and HBase on one cluster. Pokud vaše řešení nevyžaduje technologie, které jsou rozděleny mezi několika typy clusterů HDInsight, virtuální síť Azure typy požadovaných clusterových se můžete připojit.If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types.

Typ clusteruCluster type FunkceFunctionality
HadoopHadoop Dávkové dotazy a analýzy uložených datBatch query and analysis of stored data
HBaseHBase Zpracování velkých objemů dat bez schématu, NoSQLProcessing for large amounts of schemaless, NoSQL data
Interactive QueryInteractive Query Ukládání v mezipaměti pro interaktivnější a rychlejší dotazy HiveIn-memory caching for interactive and faster Hive queries
KafkaKafka Distribuovaná streamovací platforma, která slouží k vytváření aplikací a datových proudů v reálném čase datové kanályA distributed streaming platform that can be used to build real-time streaming data pipelines and applications
ML ServicesML Services Různé statistiky pro velké objemy dat, prediktivní modelování a možnosti strojového učeníVarious big data statistics, predictive modeling, and machine learning capabilities
SparkSpark Zpracování v paměti, interaktivní dotazy, zpracování datových proudů mikrodávek.In-memory processing, interactive queries, micro-batch stream processing
StormStorm Zpracování událostí v reálném časeReal-time event processing

Verze HDInsightHDInsight version

Zvolte verzi HDInsight pro tento cluster.Choose the version of HDInsight for this cluster. Další informace najdete v tématu podporované HDInsight verze.For more information, see Supported HDInsight versions.

Přihlášení ke clusteru a uživatelské jméno SSHCluster login and SSH username

S clustery HDInsight můžete nakonfigurovat dva uživatelské účty při vytváření clusteru:With HDInsight clusters, you can configure two user accounts during cluster creation:

  • Uživatel HTTP: Výchozí uživatelské jméno admin. Využívá základní konfigurace na portálu Azure portal.HTTP user: The default username is admin. It uses the basic configuration on the Azure portal. Někdy se označuje jako "Clusteru uživatele."Sometimes it is called "Cluster user."
  • Uživatele SSH: Umožňuje připojení ke clusteru přes SSH.SSH user: Used to connect to the cluster through SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.For more information, see Use SSH with HDInsight.

Enterprise security package umožňuje integraci HDInsight s Active Directory a Apache Ranger.The Enterprise security package allows you to integrate HDInsight with Active Directory and Apache Ranger. Můžete vytvořit více uživatelů pomocí balíčkem Enterprise security package.Multiple users can be created using the Enterprise security package.

Umístění (oblastí) pro clustery a úložištěLocation (regions) for clusters and storage

Není nutné explicitně zadat umístění v clusteru: Cluster je ve stejném umístění jako výchozí úložiště.You don't need to specify the cluster location explicitly: The cluster is in the same location as the default storage. Seznam podporovaných oblastí, klikněte na tlačítko oblasti rozevíracího seznamu na ceny HDInsight.For a list of supported regions, click the Region drop-down list on HDInsight pricing.

Koncové body úložiště pro clusteryStorage endpoints for clusters

I když instalace v místním systému Hadoop používá souboru systému HDFS (Hadoop Distributed) pro úložiště na clusteru, v cloudu pomocí koncových bodů úložiště připojené ke clusteru.Although an on-premises installation of Hadoop uses the Hadoop Distributed File System (HDFS) for storage on the cluster, in the cloud you use storage endpoints connected to cluster. Clustery HDInsight použít buď Azure Data Lake Storage nebo objekty BLOB ve službě Azure Storage.HDInsight clusters use either Azure Data Lake Storage or blobs in Azure Storage. Pomocí Azure Storage nebo Azure Data Lake Storage znamená, že se že můžete bezpečně odstranit clusterů HDInsight, které jsou používány pro výpočty a stále uchovejte vaše data.Using Azure Storage or Data Lake Storage means you can safely delete the HDInsight clusters used for computation while still retaining your data.

Varování

Použití dalšího účtu úložiště do jiného umístění v clusteru HDInsight se nepodporuje.Using an additional storage account in a different location from the HDInsight cluster is not supported.

Během konfigurace pro výchozí koncový bod úložiště zadáte kontejner objektů blob v účtu služby Azure Storage nebo Data Lake Storage.During configuration, for the default storage endpoint you specify a blob container of an Azure Storage account or Data Lake Storage. Výchozí úložiště obsahuje aplikaci a systémové protokoly.The default storage contains application and system logs. Volitelně můžete zadat další propojené účty Azure Storage a účty Data Lake Storage, ke kterým přístup ke clusteru.Optionally, you can specify additional linked Azure Storage accounts and Data Lake Storage accounts that the cluster can access. HDInsight cluster a závislé úložiště účty musí být ve stejném umístění Azure.The HDInsight cluster and the dependent storage accounts must be in the same Azure location.

Nastavení úložiště clusteru: Koncové body HDFS kompatibilního úložiště

Poznámka

Funkce, která vyžaduje zabezpečený přenos vynucuje všechny požadavky na účet přes zabezpečené připojení.The feature that requires secure transfer enforces all requests to your account through a secure connection. Jenom HDInsight verze 3.6 nebo novější podporuje clusteru tuto funkci.Only HDInsight cluster version 3.6 or newer supports this feature. Další informace najdete v tématu vytvořit Apache Hadoop cluster s bezpečným přenosem účty úložiště v Azure HDInsight.For more information, see Create Apache Hadoop cluster with secure transfer storage accounts in Azure HDInsight.

Volitelné metaúložištěOptional metastores

Můžete vytvořit volitelné metaúložiště Hive nebo Apache Oozie.You can create optional Hive or Apache Oozie metastores. Ale ne všechny typy clusteru podporují metaúložiště, a Azure SQL Data Warehouse není kompatibilní s metaúložiště.However, not all cluster types support metastores, and Azure SQL Data Warehouse isn't compatible with metastores.

Další informace najdete v tématu použití externích úložišť metadat v Azure HDInsight.For more information, see Use external metadata stores in Azure HDInsight.

Důležité

Když vytvoříte vlastní úložiště metadat, nepoužívejte pomlčky, pomlčky ani mezery v názvu databáze.When you create a custom metastore, don't use dashes, hyphens, or spaces in the database name. To může způsobit selhání procesu vytváření clusteru.This can cause the cluster creation process to fail.

Hive metastoreHive metastore

Pokud chcete zachovat tabulek Hive, po odstranění clusteru služby HDInsight, použijte vlastní úložiště metadat.If you want to retain your Hive tables after you delete an HDInsight cluster, use a custom metastore. Pak můžete připojit metastore do jiného clusteru HDInsight.You can then attach the metastore to another HDInsight cluster.

HDInsight metastore, který je vytvořen pro jednu verzi clusteru HDInsight se nedají sdílet mezi různými verzemi clusteru HDInsight.An HDInsight metastore that is created for one HDInsight cluster version cannot be shared across different HDInsight cluster versions. Seznam verzí HDInsight najdete v tématu podporované HDInsight verze.For a list of HDInsight versions, see Supported HDInsight versions.

Úložiště metadat OozieOozie metastore

Pokud chcete zvýšit výkon při použití Oozie, použijte vlastní úložiště metadat.To increase performance when using Oozie, use a custom metastore. Metastoru také poskytuje přístup k datům úlohy Oozie po odstranění clusteru.A metastore can also provide access to Oozie job data after you delete your cluster.

Důležité

Vlastní úložiště metadat Oozie nemůže znovu použít.You cannot reuse a custom Oozie metastore. Pokud chcete používat vlastní úložiště metadat Oozie, musíte zadat prázdnou databázi SQL Azure při vytváření clusteru HDInsight.To use a custom Oozie metastore, you must provide an empty Azure SQL Database when creating the HDInsight cluster.

Nastavení vlastního clusteruCustom cluster setup

Sestavení vlastního clusteru instalační program na rychlé vytvoření nastavení a přidá následující možnosti:Custom cluster setup builds on the Quick create settings, and adds the following options:

Balíček zabezpečení podnikuEnterprise security package

Typy clusterů Hadoop, Spark, HBase, Kafka a interaktivní dotazy, můžete povolit Enterprise Security Package.For Hadoop, Spark, HBase, Kafka, and Interactive Query cluster types, you can choose to enable the Enterprise Security Package. Tento balíček poskytuje možnost, aby se nastavení zabezpečení clusteru pomocí Apache Ranger a integrace s Azure Active Directory.This package provides option to have a more secure cluster setup by using Apache Ranger and integrating with Azure Active Directory. Další informace najdete v tématu Enterprise Security Package v Azure HDInsight.For more information, see Enterprise Security Package in Azure HDInsight.

hdinsight vytvořit možnosti zvolte balíčkem enterprise security package

Další informace o vytváření HDInsight připojených k doméně clusteru, naleznete v tématu prostředí sandboxu připojeného k doméně HDInsight vytvořit.For more information on creating domain-joined HDInsight cluster, see Create domain-joined HDInsight sandbox environment.

Instalace aplikací HDInsight v clusterechInstall HDInsight applications on clusters

Aplikace HDInsight je aplikace, kterou uživatelé mohou nainstalovat na clusteru HDInsight se systémem Linux.An HDInsight application is an application that users can install on a Linux-based HDInsight cluster. Aplikace může používat, pokud se společností Microsoft, třetími stranami nebo které jste sami vývoj.You can use applications provided by Microsoft, third parties, or that you develop yourself. Další informace najdete v tématu instalace aplikací třetích stran Apache Hadoop v Azure HDInsight.For more information, see Install third-party Apache Hadoop applications on Azure HDInsight.

Většina aplikací HDInsight jsou nainstalované na prázdných hraničních uzlů.Most of the HDInsight applications are installed on an empty edge node. Prázdných hraničních uzlů je virtuální počítač s Linuxem pomocí stejných nástrojů klient nainstalovaný a nakonfigurovaný jako hlavní uzel.An empty edge node is a Linux virtual machine with the same client tools installed and configured as in the head node. Hraniční uzel můžete použít pro přístup ke clusteru, testování vaší klientské aplikace a který je hostitelem klientských aplikací.You can use the edge node for accessing the cluster, testing your client applications, and hosting your client applications. Další informace najdete v tématu použití prázdných hraničních uzlů v HDInsight.For more information, see Use empty edge nodes in HDInsight.

Konfigurovat velikost clusteruConfigure cluster size

Pro uzel využití se účtují, za předpokladu, cluster existuje.You are billed for node usage for as long as the cluster exists. Účtování začne při vytvoření clusteru a skončí jeho odstraněním.Billing starts when a cluster is created and stops when the cluster is deleted. Clusterů nejde zrušit přidělení nebo pozastavit.Clusters can’t be de-allocated or put on hold.

Počet uzlů pro každý typ clusteruNumber of nodes for each cluster type

Každý typ clusteru má svůj vlastní počet uzlů, terminologie pro uzly a výchozí velikosti virtuálního počítače.Each cluster type has its own number of nodes, terminology for nodes, and default VM size. V následující tabulce počet uzlů pro každý typ uzlu je v závorkách.In the following table, the number of nodes for each node type is in parentheses.

TypeType UzlyNodes DiagramDiagram
HadoopHadoop Hlavní uzel (2), pracovní uzel (1 +)Head node (2), Worker node (1+) Uzly clusteru HDInsight Hadoop
HBaseHBase Hlavní server (2), oblast serveru (1 +), uzlu master/ZooKeeper (3)Head server (2), region server (1+), master/ZooKeeper node (3) Uzly clusteru HDInsight HBase
StormStorm Uzel nimbus (2), správce serveru (1 +), uzly ZooKeeper (3)Nimbus node (2), supervisor server (1+), ZooKeeper node (3) Uzly clusteru HDInsight Storm
SparkSpark Hlavní uzel (2), pracovní uzel (1 +), uzly ZooKeeper (3) (zdarma pro virtuální počítač A1 ZooKeeper velikost)Head node (2), Worker node (1+), ZooKeeper node (3) (free for A1 ZooKeeper VM size) Uzly clusteru HDInsight Spark

Další informace najdete v tématu výchozí velikosti virtuálního počítače a konfigurace uzlů pro clustery v "Jaké jsou komponenty a verze v HDInsight?"For more information, see Default node configuration and virtual machine sizes for clusters in "What are the Hadoop components and versions in HDInsight?"

Náklady na clusterech HDInsight se určuje podle počtu uzlů a velikosti virtuálního počítače pro uzly.The cost of HDInsight clusters is determined by the number of nodes and the virtual machines sizes for the nodes.

Různých typů clusterů mají různé typy uzlů, počet uzlů a velikosti uzlů:Different cluster types have different node types, numbers of nodes, and node sizes:

  • Výchozí typ clusteru Hadoop:Hadoop cluster type default:
    • Dvě hlavním uzlůmTwo head nodes
    • Čtyři pracovní uzlyFour Worker nodes
  • Výchozí typ clusteru Storm:Storm cluster type default:
    • Dvě uzly NimbusTwo Nimbus nodes
    • Tři uzly ZooKeeperThree ZooKeeper nodes
    • Čtyři dohledové uzlyFour supervisor nodes

Pokud se právě pokoušíte mimo HDInsight, doporučujeme že použít jeden pracovního uzlu.If you are just trying out HDInsight, we recommend you use one Worker node. Další informace o cenách služby HDInsight najdete v tématu ceny HDInsight.For more information about HDInsight pricing, see HDInsight pricing.

Poznámka

Limit velikost clusteru se liší mezi předplatným Azure.The cluster size limit varies among Azure subscriptions. Kontakt podporu fakturace Azure o zvýšení limitu.Contact Azure billing support to increase the limit.

Když použijete na webu Azure portal ke konfiguraci clusteru, velikost uzlu je k dispozici prostřednictvím cenové úrovně uzlů okno.When you use the Azure portal to configure the cluster, the node size is available through the Node Pricing Tiers blade. Na portálu uvidíte také náklady spojené s velikostí jiný uzel.In the portal, you can also see the cost associated with the different node sizes.

Velikosti uzlů HDInsight virtuálního počítače

Velikosti virtuálních počítačůVirtual machine sizes

Při nasazování clusterů, zvolte výpočetní prostředky, které jsou založené na řešení, které chcete nasadit.When you deploy clusters, choose compute resources based on the solution you plan to deploy. Následující virtuální počítače se používají pro clustery HDInsight:The following VMs are used for HDInsight clusters:

A zjistěte, co hodnotou, kterou jste používali k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad SDK nebo při použití prostředí Azure PowerShell, najdete v článku velikosti virtuálních počítačů pro clustery HDInsight.To find out what value you should use to specify a VM size while creating a cluster using the different SDKs or while using Azure PowerShell, see VM sizes to use for HDInsight clusters. V tomto článku propojené použije hodnotu v velikost sloupec tabulky.From this linked article, use the value in the Size column of the tables.

Důležité

Pokud potřebujete více než 32 uzlů pracovního procesu v clusteru, musíte vybrat velikost hlavního uzlu s alespoň s 8 jádry a 14 GB paměti RAM.If you need more than 32 Worker nodes in a cluster, you must select a head node size with at least 8 cores and 14 GB of RAM.

Další informace najdete v tématu velikosti virtuálních počítačů.For more information, see Sizes for virtual machines. Informace o různých velikostí cenách najdete v tématu ceny HDInsight.For information about pricing of the various sizes, see HDInsight pricing.

Upřesňující nastavení: Akce skriptůAdvanced settings: Script actions

Můžete nainstalovat další komponenty nebo přizpůsobení konfigurace clusteru pomocí skriptů během vytváření.You can install additional components or customize cluster configuration by using scripts during creation. Tyto skripty jsou volány prostřednictvím akce skriptu, což je možnost konfigurace, které můžete používat z webu Azure portal, rutin Windows Powershellu HDInsight nebo sady HDInsight .NET SDK.Such scripts are invoked via Script Action, which is a configuration option that can be used from the Azure portal, HDInsight Windows PowerShell cmdlets, or the HDInsight .NET SDK. Další informace najdete v tématu clusteru HDInsight přizpůsobení pomocí akce skriptu.For more information, see Customize HDInsight cluster using Script Action.

Některé součásti nativní Java, jako je Apache Mahout a možností, může běžet v clusteru jako soubory archivu (soubor JAR pro Javu).Some native Java components, like Apache Mahout and Cascading, can be run on the cluster as Java Archive (JAR) files. Tyto soubory JAR může distribuovat do služby Azure Storage a odešle do clusterů HDInsight s mechanismy odesílání úloh Hadoop.These JAR files can be distributed to Azure Storage and submitted to HDInsight clusters with Hadoop job submission mechanisms. Další informace najdete v tématu úlohy Apache Hadoop odeslat prostřednictvím kódu programu.For more information, see Submit Apache Hadoop jobs programmatically.

Poznámka

Pokud máte problémy s nasazením soubory JAR do clusterů HDInsight, nebo se obraťte volání soubory JAR na clusterech HDInsight Microsoft Support.If you have issues deploying JAR files to HDInsight clusters, or calling JAR files on HDInsight clusters, contact Microsoft Support.

CSS nepodporuje HDInsight a nesplňuje podmínky pro Microsoft Support.Cascading is not supported by HDInsight and is not eligible for Microsoft Support. Seznam podporovaných součásti, naleznete v tématu co je nového ve verzích clusterů HDInsight poskytuje.For lists of supported components, see What's new in the cluster versions provided by HDInsight.

V některých případech budete chtít nakonfigurovat následující konfigurační soubory během procesu vytváření:Sometimes, you want to configure the following configuration files during the creation process:

  • clusterIdentity.xmlclusterIdentity.xml
  • Core-site.xmlcore-site.xml
  • gateway.xmlgateway.xml
  • hbase-env.xmlhbase-env.xml
  • hbase-site.xmlhbase-site.xml
  • hdfs-site.xmlhdfs-site.xml
  • hive-env.xmlhive-env.xml
  • hive-site.xmlhive-site.xml
  • mapred-sitemapred-site
  • oozie site.xmloozie-site.xml
  • oozie-env.xmloozie-env.xml
  • Storm-site.xmlstorm-site.xml
  • tez-site.xmltez-site.xml
  • webhcat-site.xmlwebhcat-site.xml
  • yarn-site.xmlyarn-site.xml

Další informace najdete v tématu HDInsight přizpůsobení clusterů pomocí Bootstrap.For more information, see Customize HDInsight clusters using Bootstrap.

Upřesňující nastavení: Rozšíření clusterů s virtuální sítíAdvanced settings: Extend clusters with a virtual network

Pokud vaše řešení nevyžaduje technologie, které jsou rozděleny mezi několika typy clusterů HDInsight, virtuální síť Azure typy požadovaných clusterových se můžete připojit.If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types. Tato konfigurace umožňuje clusterů a jakýkoli kód, který nasazujete na ně přímo komunikovat mezi sebou.This configuration allows the clusters, and any code you deploy to them, to directly communicate with each other.

Další informace o používání služby Azure virtual network se službou HDInsight najdete v tématu rozšířit HDInsight s Azure virtual networks.For more information on using an Azure virtual network with HDInsight, see Extend HDInsight with Azure virtual networks.

Příklad použití dva typy clusterů ve službě Azure virtual network, naleznete v tématu použití strukturovaného streamu Apache Spark s využitím Apache Kafka.For an example of using two cluster types within an Azure virtual network, see Use Apache Spark Structured Streaming with Apache Kafka. Další informace o používání HDInsight s virtuální sítí, včetně požadavků na konkrétní konfiguraci virtuální sítě, naleznete v tématu možnosti rozšíření HDInsight pomocí Azure Virtual Network.For more information about using HDInsight with a virtual network, including specific configuration requirements for the virtual network, see Extend HDInsight capabilities by using Azure Virtual Network.

Další postupNext steps