Wybieranie odpowiedniego rozmiaru maszyny wirtualnej dla klastra usługi Azure HDInsight

W tym artykule omówiono sposób wybierania odpowiedniego rozmiaru maszyny wirtualnej dla różnych węzłów w klastrze usługi HDInsight.

Zacznij od zrozumienia, jak właściwości maszyny wirtualnej, takie jak przetwarzanie procesora CPU, rozmiar pamięci RAM i opóźnienie sieci, wpłynie na przetwarzanie obciążeń. Następnie zastanów się nad aplikacją i tym, jak jest ona zgodna z różnymi rodzinami maszyn wirtualnych zoptymalizowanymi pod kątem. Upewnij się, że rodzina maszyn wirtualnych, której chcesz użyć, jest zgodna z typem klastra, który planujesz wdrożyć. Aby uzyskać listę wszystkich obsługiwanych i zalecanych rozmiarów maszyn wirtualnych dla każdego typu klastra, zobacz Konfiguracje węzłów obsługiwanych przez usługę Azure HDInsight. Na koniec możesz użyć procesu testowania porównawczego, aby przetestować przykładowe obciążenia i sprawdzić, która jednostka SKU w tej rodzinie jest odpowiednia dla Ciebie.

Aby uzyskać więcej informacji na temat planowania innych aspektów klastra, takich jak wybieranie typu magazynu lub rozmiaru klastra, zobacz Planowanie pojemności dla klastrów usługi HDInsight.

Właściwości maszyny wirtualnej i obciążenia danych big data

Rozmiar i typ maszyny wirtualnej zależy od mocy procesora CPU, rozmiaru pamięci RAM i opóźnienia sieci:

  • Procesor CPU: rozmiar maszyny wirtualnej określa liczbę rdzeni. Im więcej rdzeni, tym większy stopień obliczeń równoległych może osiągnąć każdy węzeł. Ponadto niektóre typy maszyn wirtualnych mają szybsze rdzenie.

  • Pamięć RAM: rozmiar maszyny wirtualnej określa również ilość pamięci RAM dostępnej na maszynie wirtualnej. W przypadku obciążeń, które przechowują dane w pamięci do przetwarzania, a nie odczytu z dysku, upewnij się, że węzły robocze mają wystarczającą ilość pamięci, aby zmieścić dane.

  • Sieć: w przypadku większości typów klastrów dane przetwarzane przez klaster nie znajdują się na dysku lokalnym, ale w zewnętrznej usłudze magazynu, takiej jak Data Lake Storage lub Azure Storage. Rozważ przepustowość sieci i przepływność między maszyną wirtualną węzła a usługą magazynu. Przepustowość sieci dostępna dla maszyny wirtualnej zwykle zwiększa się o większe rozmiary. Aby uzyskać szczegółowe informacje, zobacz Omówienie rozmiarów maszyn wirtualnych.

Opis optymalizacji maszyny wirtualnej

Rodziny maszyn wirtualnych na platformie Azure są zoptymalizowane pod kątem różnych przypadków użycia. W poniższej tabeli można znaleźć niektóre z najpopularniejszych przypadków użycia i rodzin maszyn wirtualnych pasujących do nich.

Typ Rozmiary Opis
Entry-level Av2 Mają konfiguracje wydajności procesora CPU i pamięci, które najlepiej nadają się do obciążeń na poziomie podstawowym, takich jak programowanie i testowanie. Są ekonomiczne i zapewniają tanią opcję rozpoczęcia pracy z platformą Azure.
Ogólnego przeznaczenia D, DSv2, Dv2 Zrównoważony współczynnik mocy procesora CPU w stosunku do pamięci. Idealne rozwiązanie na potrzeby testowania i wdrażania, małych i średnich baz danych oraz serwerów internetowych o małym lub średnim ruchu.
Optymalizacja pod kątem obliczeń F Duży współczynnik mocy procesora CPU w stosunku do pamięci. Dobre dla serwerów sieci Web o średnim ruchu, urządzeniach sieciowych, procesach wsadowych i serwerach aplikacji.
Optymalizacja pod kątem pamięci Esv3, Ev3 Duży współczynnik pamięci w stosunku do mocy procesora CPU. Opcja bardzo dobra w przypadku serwerów relacyjnych baz danych, średnich i dużych pamięci podręcznych oraz analizowania w pamięci.

Oszczędność kosztów typów maszyn wirtualnych dla lekkich obciążeń

Jeśli masz wymagania dotyczące przetwarzania światła, seria F może być dobrym wyborem, aby rozpocząć pracę z usługą HDInsight. Oferując niższą cenę za godzinę, seria F zapewnia najlepszy w portfolio platformy Azure stosunek ceny do wydajności, określany na podstawie liczby jednostek ACU (Azure Compute Unit) na procesor wirtualny vCPU.

W poniższej tabeli opisano typy klastrów i typy węzłów, które można utworzyć za pomocą maszyn wirtualnych serii Fsv2.

Typ klastra Wersja Węzeł procesu roboczego Węzeł główny Węzeł zookeeper
platforma Spark Wszystko F4 i nowsze nie nie
Hadoop Wszystko F4 i nowsze nie nie
Kafka Wszystko F4 i nowsze nie nie
HBase Wszystko F4 i nowsze nie nie
LLAP wyłączone nie nie nie

Aby wyświetlić specyfikacje poszczególnych jednostek SKU serii F, zobacz Rozmiary maszyn wirtualnych serii F.

Benchmarking

Testowanie porównawcze to proces uruchamiania symulowanych obciążeń na różnych maszynach wirtualnych, aby zmierzyć, jak dobrze będą działać dla obciążeń produkcyjnych.

Aby uzyskać więcej informacji na temat testów porównawczych dla jednostek SKU maszyn wirtualnych i rozmiarów klastra, zobacz Planowanie pojemności klastra w usłudze Azure HDInsight .

Następne kroki