Výběr správné velikosti virtuálního počítače pro cluster Azure HDInsightSelecting the right VM size for your Azure HDInsight cluster

Tento článek popisuje, jak vybrat správnou velikost virtuálního počítače pro různé uzly v clusteru HDInsight.This article discusses how to select the right VM size for the various nodes in your HDInsight cluster.

Začněte tím, že pochopíte, jak vlastnosti virtuálního počítače, jako je zpracování procesoru, velikost paměti RAM a latence sítě, budou mít vliv na zpracování vašich úloh.Begin by understanding how the properties of a virtual machine such as CPU processing, RAM size, and network latency will affect the processing of your workloads. V dalším kroku si myslíte, jak vaše aplikace odpovídá a jaké jsou pro ně optimalizované různé rodiny virtuálních počítačů.Next, think about your application and how it matches with what different VM families are optimized for. Ujistěte se, že rodina virtuálních počítačů, kterou chcete použít, je kompatibilní s typem clusteru, který plánujete nasadit.Make sure that the VM family that you would like to use is compatible with the cluster type that you plan to deploy. Seznam všech podporovaných a doporučených velikostí virtuálních počítačů pro každý typ clusteru najdete v tématu podporované konfigurace uzlů pro Azure HDInsight.For a list of all supported and recommended VM sizes for each cluster type, see Azure HDInsight supported node configurations. Nakonec můžete použít proces srovnávacích testů k testování některých ukázkových úloh a zkontrolovat, kterou SKU v této rodině je pro vás nejvhodnější.Lastly, you can use a benchmarking process to test some sample workloads and check which SKU within that family is right for you.

Další informace o plánování dalších aspektů vašeho clusteru, například výběru typu úložiště nebo velikosti clusteru, najdete v tématu plánování kapacity pro clustery HDInsight.For more information on planning other aspects of your cluster such as selecting a storage type or cluster size, see Capacity planning for HDInsight clusters.

Vlastnosti virtuálního počítače a úlohy s velkými objemy datVM properties and big data workloads

Velikost a typ virtuálního počítače závisí na výkonu procesoru, velikosti paměti RAM a latenci sítě:The VM size and type is determined by CPU processing power, RAM size, and network latency:

  • CPU: velikost virtuálního počítače určuje počet jader.CPU: The VM size dictates the number of cores. Víc jader, tím větší je stupeň paralelního výpočtu, který každý uzel může dosáhnout.The more cores, the greater the degree of parallel computation each node can achieve. Některé typy virtuálních počítačů navíc mají rychlejší jádra.Also, some VM types have faster cores.

  • RAM: velikost virtuálního počítače také určí velikost paměti RAM dostupné ve virtuálním počítači.RAM: The VM size also dictates the amount of RAM available in the VM. Pro úlohy, které ukládají data do paměti pro zpracování, nikoli čtení z disku, ujistěte se, že vaše pracovní uzly mají dostatek paměti pro přizpůsobení dat.For workloads that store data in memory for processing, rather than reading from disk, ensure your worker nodes have enough memory to fit the data.

  • Síť: u většiny typů clusterů data zpracovaná clusterem nejsou na místním disku, ale ne v externí službě úložiště, jako je Data Lake Storage nebo Azure Storage.Network: For most cluster types, the data processed by the cluster isn't on local disk, but rather in an external storage service such as Data Lake Storage or Azure Storage. Vezměte v úvahu šířku pásma a propustnost sítě mezi virtuálním počítačem uzlu a službou úložiště.Consider the network bandwidth and throughput between the node VM and the storage service. Šířka pásma sítě, která je k dispozici pro virtuální počítač, se obvykle zvětšuje o větší velikost.The network bandwidth available to a VM typically increases with larger sizes. Podrobnosti najdete v tématu Přehled velikostí virtuálních počítačů.For details, see VM sizes overview.

Principy optimalizace virtuálních počítačůUnderstanding VM optimization

Rodiny virtuálních počítačů v Azure jsou optimalizované tak, aby vyhovovaly různým případům použití.Virtual machine families in Azure are optimized to suit different use cases. V níže uvedené tabulce najdete některé z nejoblíbenějších případů použití a rodin virtuálních počítačů, které se na ně shodují.In the table below, you can find some of the most popular use cases and the VM families that match to them.

TypType VelikostiSizes PopisDescription
Vstupní úroveňEntry-level A, Av2A, Av2 Pro úlohy vstupní úrovně, jako je vývoj a testování, se nejlépe hodí konfigurace výkonu a paměti procesoru.Have CPU performance and memory configurations best suited for entry level workloads like development and test. Je to ekonomicky výhodná možnost, která vám umožní začít s Azure.They are economical and provide a low-cost option to get started with Azure.
Obecné účelyGeneral purpose D, DSv2, Dv2D, DSv2, Dv2 Vyvážený poměr procesorů k paměti.Balanced CPU-to-memory ratio. Tato možnost je ideální pro testování a vývoj, malé až střední databáze a webové servery s nízkým až středním provozem.Ideal for testing and development, small to medium databases, and low to medium traffic web servers.
Optimalizované pro výpočtyCompute optimized FF Vysoký poměr procesorů k paměti.High CPU-to-memory ratio. Vhodné pro webové servery se středním provozem, síťová zařízení, dávkové procesy a aplikační servery.Good for medium traffic web servers, network appliances, batch processes, and application servers.
Optimalizované pro paměťMemory optimized Esv3, Ev3Esv3, Ev3 Vysoký poměr paměti k procesoru.High memory-to-CPU ratio. Velmi vhodné pro relační databázové servery, střední a velké mezipaměti a analýzu v paměti.Great for relational database servers, medium to large caches, and in-memory analytics.
  • Informace o cenách dostupných instancí virtuálních počítačů napříč oblastmi podporovanými HDInsight najdete v tématu ceny služby HDInsight.For information about pricing of available VM instances across HDInsight supported regions, see HDInsight Pricing.

Náklady na úsporu typů virtuálních počítačů pro úlohy s lehkým zatíženímCost saving VM types for light workloads

Pokud máte požadavky na zpracování světla, může být Řada F-Series vhodnou volbou pro zahájení práce se službou HDInsight.If you have light processing requirements, the F-series can be a good choice to get started with HDInsight. Za nižší ceníkové sazby za hodinu nabízí řada F-series nejlepší poměr cena–výkon v portfoliu Azure, pokud jde o množství výpočetních jednotek Azure (ACU) na virtuální procesor.At a lower per-hour list price, the F-series is the best value in price-performance in the Azure portfolio based on the Azure Compute Unit (ACU) per vCPU.

Následující tabulka popisuje typy clusterů a typy uzlů, které lze vytvořit pomocí virtuálních počítačů Fsv2-Series.The following table describes the cluster types and node types, which can be created with the Fsv2-series VMs.

Typ clusteruCluster Type VerzeVersion Pracovní uzelWorker Node Hlavní uzelHead Node Uzel ZookeeperZookeeper Node
SparkSpark VšeAll F4 a vyššíF4 and above neno neno
HadoopHadoop VšeAll F4 a vyššíF4 and above neno neno
KafkaKafka VšeAll F4 a vyššíF4 and above neno neno
HBaseHBase VšeAll F4 a vyššíF4 and above neno neno
LLAPLLAP zakázanýdisabled neno neno neno
StormStorm zakázanýdisabled neno neno neno
Služba MLML Service JENOM HDI 3,6HDI 3.6 ONLY F4 a vyššíF4 and above neno neno

Specifikace jednotlivých SKU F-Series najdete v tématu velikosti virtuálních počítačů řady f-Series.To see the specifications of each F-series SKU, see F-series VM sizes.

Srovnávací testyBenchmarking

Srovnávací testy je proces spouštění simulovaných úloh na různých virtuálních počítačích, aby bylo možné měřit, jak dobře budou fungovat pro vaše produkční úlohy.Benchmarking is the process of running simulated workloads on different VMs to measure how well they will perform for your production workloads.

Další informace o srovnávacích testech pro SKU virtuálních počítačů a velikosti clusterů najdete v tématu plánování kapacity clusteru ve službě Azure HDInsight .For more information on benchmarking for VM SKUs and cluster sizes, see Cluster capacity planning in Azure HDInsight .

Další krokyNext steps