Výběr správné velikosti virtuálního počítače pro cluster Azure HDInsight

Tento článek popisuje, jak vybrat správnou velikost virtuálního počítače pro různé uzly v clusteru HDInsight.

Začněte tím, že pochopíte, jak vlastnosti virtuálního počítače, jako je zpracování procesoru, velikost paměti RAM a latence sítě, ovlivní zpracování vašich úloh. Dále se zamyslete nad aplikací a o tom, jak odpovídá různým rodinám virtuálních počítačů, pro které jsou optimalizované. Ujistěte se, že řada virtuálních počítačů, kterou chcete použít, je kompatibilní s typem clusteru, který plánujete nasadit. Seznam všech podporovaných a doporučených velikostí virtuálních počítačů pro jednotlivé typy clusterů najdete v tématu Konfigurace uzlů podporované službou Azure HDInsight. Nakonec můžete pomocí procesu srovnávacího testu otestovat některé ukázkové úlohy a zkontrolovat, která skladová položka v rámci této řady je pro vás nejvhodnější.

Další informace o plánování dalších aspektů clusteru, jako je výběr typu úložiště nebo velikosti clusteru, najdete v tématu Plánování kapacity pro clustery HDInsight.

Vlastnosti virtuálního počítače a úlohy s velkými objemy dat

Velikost a typ virtuálního počítače určuje výpočetní výkon procesoru, velikost paměti RAM a latence sítě:

  • CPU: Velikost virtuálního počítače určuje počet jader. Čím více jader, tím větší stupeň paralelních výpočtů může každý uzel dosáhnout. Některé typy virtuálních počítačů mají také rychlejší jádra.

  • RAM: Velikost virtuálního počítače také určuje velikost paměti RAM, která je ve virtuálním počítači dostupná. U úloh, které ukládají data do paměti ke zpracování, se místo čtení z disku ujistěte, že pracovní uzly mají dostatek paměti pro data.

  • Síť: U většiny typů clusterů nejsou data zpracovávaná clusterem na místním disku, ale spíše ve službě externího úložiště, jako je Data Lake Storage nebo Azure Storage. Zvažte šířku pásma sítě a propustnost mezi virtuálním počítačem uzlu a službou úložiště. Šířka pásma sítě dostupná pro virtuální počítač se obvykle zvyšuje s většími velikostmi. Podrobnosti najdete v přehledu velikostí virtuálních počítačů.

Principy optimalizace virtuálních počítačů

Rodiny virtuálních počítačů v Azure jsou optimalizované tak, aby vyhovovaly různým případům použití. V následující tabulce najdete některé z nejoblíbenějších případů použití a rodiny virtuálních počítačů, které se s nimi shodují.

Typ Velikosti Popis
Entry-level Av2 Konfigurace výkonu procesoru a paměti, které jsou nejvhodnější pro úlohy základní úrovně, jako je vývoj a testování. Jsou úsporné a poskytují nízkonákladovou možnost, jak začít s Azure.
Obecné účely D, DSv2, Dv2 Vyvážený poměr procesorů k paměti. Tato možnost je ideální pro testování a vývoj, malé až střední databáze a webové servery s nízkým až středním provozem.
Optimalizované pro výpočty F Vysoký poměr procesorů k paměti. Vhodné pro webové servery se středním provozem, síťová zařízení, dávkové procesy a aplikační servery.
Optimalizované pro paměť Esv3, Ev3 Vysoký poměr paměti k procesoru. Jsou velmi vhodné pro servery s relační databází, střední a velké mezipaměti a analýzu v paměti.
  • Informace o cenách dostupných instancí virtuálních počítačů napříč podporovanými oblastmi HDInsight najdete v tématu Ceny služby HDInsight.

Typy virtuálních počítačů s nízkou zátěží šetří náklady

Pokud máte požadavky na světelný zpracování, může být řada F-series dobrou volbou pro zahájení práce se službou HDInsight. Za nižší ceníkové sazby za hodinu nabízí řada F-series nejlepší poměr cena–výkon v portfoliu Azure, pokud jde o množství výpočetních jednotek Azure (ACU) na virtuální procesor.

Následující tabulka popisuje typy clusterů a uzlů, které je možné vytvořit pomocí virtuálních počítačů řady Fsv2.

Typ clusteru Verze Pracovní uzel Hlavní uzel Uzel Zookeeper
Spark Vše F4 a vyšší ne ne
Hadoop Vše F4 a vyšší ne ne
Kafka Vše F4 a vyšší ne ne
HBase Vše F4 a vyšší ne ne
LLAP zakázaný ne ne ne

Specifikace jednotlivých skladových položek řady F-series najdete v tématu Velikosti virtuálních počítačů řady F.

Srovnávání

Srovnávací testy je proces spouštění simulovaných úloh na různých virtuálních počítačích, aby bylo změřené, jak dobře budou fungovat u produkčních úloh.

Další informace o srovnávacích testech pro skladové položky virtuálních počítačů a velikosti clusterů najdete v tématu Plánování kapacity clusteru ve službě Azure HDInsight .

Další kroky