Wybieranie odpowiedniego rozmiaru maszyny wirtualnej dla klastra usługi Azure HDInsight

W tym artykule omówiono sposób wybierania odpowiedniego rozmiaru maszyny wirtualnej dla różnych węzłów w klastrze usługi HDInsight.

Zacznij od zrozumienia, w jaki sposób właściwości maszyny wirtualnej, takie jak przetwarzanie procesora CPU, rozmiar pamięci RAM i opóźnienie sieci wpływają na przetwarzanie obciążeń. Następnie zastanów się nad aplikacją i sposobem dopasowania jej do różnych rodzin maszyn wirtualnych. Upewnij się, że rodzina maszyn wirtualnych, której chcesz użyć, jest zgodna z typem klastra, który planujesz wdrożyć. Aby uzyskać listę wszystkich obsługiwanych i zalecanych rozmiarów maszyn wirtualnych dla każdego typu klastra, zobacz Obsługiwane konfiguracje węzłów usługi Azure HDInsight. Na koniec możesz użyć procesu testowania porównawczego, aby przetestować przykładowe obciążenia i sprawdzić, która jednostka SKU w ramach tej rodziny jest odpowiednia dla Ciebie.

Aby uzyskać więcej informacji na temat planowania innych aspektów klastra, takich jak wybieranie typu magazynu lub rozmiaru klastra, zobacz Planowanie pojemności dla klastrów usługi HDInsight.

Właściwości maszyny wirtualnej i obciążenia danych big data

Rozmiar i typ maszyny wirtualnej są określane przez moc obliczeniową procesora CPU, rozmiar pamięci RAM i opóźnienie sieci:

  • Procesor CPU: rozmiar maszyny wirtualnej określa liczbę rdzeni. Im więcej rdzeni, tym większy stopień obliczeń równoległych może osiągnąć każdy węzeł. Ponadto niektóre typy maszyn wirtualnych mają szybsze rdzenie.

  • Pamięć RAM: rozmiar maszyny wirtualnej określa również ilość pamięci RAM dostępnej na maszynie wirtualnej. W przypadku obciążeń, które przechowują dane w pamięci do przetwarzania, a nie odczytu z dysku, upewnij się, że węzły robocze mają wystarczającą ilość pamięci, aby zmieścić dane.

  • Sieć: w przypadku większości typów klastrów dane przetwarzane przez klaster nie znajdują się na dysku lokalnym, ale raczej w zewnętrznej usłudze magazynu, takiej jak Data Lake Storage lub Azure Storage. Rozważ przepustowość sieci i przepływność między maszyną wirtualną węzła a usługą magazynu. Przepustowość sieci dostępna dla maszyny wirtualnej zwykle zwiększa się o większe rozmiary. Aby uzyskać szczegółowe informacje, zobacz Omówienie rozmiarów maszyn wirtualnych.

Omówienie optymalizacji maszyn wirtualnych

Rodziny maszyn wirtualnych na platformie Azure są zoptymalizowane pod kątem różnych przypadków użycia. W poniższej tabeli można znaleźć niektóre z najpopularniejszych przypadków użycia i rodzin maszyn wirtualnych, które są dla nich zgodne.

Typ Rozmiary opis
Entry-level Av2 Wydajność procesora CPU i konfiguracje pamięci najlepiej nadają się do obciążeń na poziomie podstawowym, takich jak programowanie i testowanie. Są one ekonomiczne i zapewniają tanią opcję rozpoczęcia pracy z platformą Azure.
Ogólnego przeznaczenia D, , DSv2Dv2 Zrównoważony współczynnik mocy procesora CPU w stosunku do pamięci. Idealne rozwiązanie na potrzeby testowania i wdrażania, małych i średnich baz danych oraz serwerów internetowych o małym lub średnim ruchu.
Optymalizacja pod kątem obliczeń F Duży współczynnik mocy procesora CPU w stosunku do pamięci. Dobrze sprawdzają się w przypadku serwerów sieci Web o średnim ruchu, urządzeń sieciowych, procesów wsadowych i serwerów aplikacji.
Optymalizacja pod kątem pamięci Esv3, Ev3 Duży współczynnik pamięci w stosunku do mocy procesora CPU. Opcja bardzo dobra w przypadku serwerów relacyjnych baz danych, średnich i dużych pamięci podręcznych oraz analizowania w pamięci.
  • Aby uzyskać informacje o cenach dostępnych wystąpień maszyn wirtualnych w obsługiwanych regionach usługi HDInsight, zobacz Cennik usługi HDInsight.

Oszczędzanie kosztów typów maszyn wirtualnych dla lekkich obciążeń

Jeśli masz wymagania dotyczące przetwarzania światła, seria F może być dobrym wyborem, aby rozpocząć pracę z usługą HDInsight. Oferując niższą cenę za godzinę, seria F zapewnia najlepszy w portfolio platformy Azure stosunek ceny do wydajności, określany na podstawie liczby jednostek ACU (Azure Compute Unit) na procesor wirtualny vCPU.

W poniższej tabeli opisano typy klastrów i typy węzłów, które można utworzyć za pomocą maszyn wirtualnych serii Fsv2.

Typ klastra Wersja Węzeł roboczy Węzeł główny Węzeł usługi ZooKeeper
platforma Spark wszystkie F4 i nowsze nie nie
Hadoop wszystkie F4 i nowsze nie nie
Kafka wszystkie F4 i nowsze nie nie
HBase wszystkie F4 i nowsze nie nie
LLAP wyłączone nie nie nie

Aby wyświetlić specyfikacje poszczególnych jednostek SKU serii F, zobacz Rozmiary maszyn wirtualnych serii F.

Benchmarking

Benchmarking to proces uruchamiania symulowanych obciążeń na różnych maszynach wirtualnych w celu mierzenia, jak dobrze działają dla obciążeń produkcyjnych.

Aby uzyskać więcej informacji na temat testów porównawczych dla jednostek SKU maszyn wirtualnych i rozmiarów klastrów, zobacz Planowanie pojemności klastra w usłudze Azure HDInsight .

Następne kroki