De juiste VM-grootte voor uw Azure HDInsight-cluster selecteren

In dit artikel wordt beschreven hoe u de juiste VM-grootte kunt selecteren voor de verschillende knoop punten in uw HDInsight-cluster.

Begin door te weten hoe de eigenschappen van een virtuele machine, zoals CPU-verwerking, RAM-grootte en netwerk latentie, van invloed zijn op de verwerking van uw workloads. Denk vervolgens na over uw toepassing en hoe deze overeenkomt met de verschillende VM-families die zijn geoptimaliseerd voor. Zorg ervoor dat de VM-familie die u wilt gebruiken, compatibel is met het cluster type dat u wilt implementeren. Zie door Azure HDInsight ondersteunde knooppunt configuratiesvoor een lijst met alle ondersteunde en aanbevolen VM-grootten voor elk cluster type. Ten slotte kunt u een benchmark procedure gebruiken om een aantal voorbeeld workloads te testen en te controleren welke SKU binnen die familie geschikt is voor u.

Zie capaciteits planning voor HDInsight-clustersvoor meer informatie over het plannen van andere aspecten van het cluster, zoals het selecteren van een opslag type of cluster grootte.

VM-eigenschappen en big data-workloads

De grootte en het type van de virtuele machine zijn afhankelijk van CPU-verwerkings kracht, RAM-grootte en netwerk latentie:

  • CPU: de grootte van de virtuele machine bepaalt het aantal kernen. Hoe meer kernen, des te groter de mate van parallelle reken kracht van elk knoop punt kan worden gerealiseerd. Daarnaast hebben sommige VM-typen snellere kernen.

  • RAM: de VM-grootte bepaalt ook de hoeveelheid RAM-geheugen dat beschikbaar is in de virtuele machine. Voor werk belastingen waarbij gegevens in het geheugen worden opgeslagen voor verwerking, in plaats van de schijf te lezen, moet u ervoor zorgen dat uw worker-knoop punten voldoende geheugen hebben om de gegevens te passen.

  • Netwerk: voor de meeste cluster typen worden de gegevens die door het cluster worden verwerkt, niet op de lokale schijf opgeslagen, maar in een externe opslag service, zoals Data Lake Storage of Azure Storage. Houd rekening met de netwerk bandbreedte en door Voer tussen de VM van het knoop punt en de opslag service. De netwerk bandbreedte die beschikbaar is voor een virtuele machine neemt doorgaans toe met grotere grootten. Zie overzicht van VM-groottenvoor meer informatie.

Meer informatie over VM-optimalisatie

Virtuele-machine families in azure zijn geoptimaliseerd voor verschillende use cases. In de onderstaande tabel vindt u enkele van de populairste use cases en de VM-families die overeenkomen.

Type Grootten Beschrijving
Instap niveau A, Av2 Beschikken over CPU-prestaties en geheugen configuraties die het meest geschikt zijn voor workloads op instap niveau, zoals ontwikkelen en testen. Ze zijn voordelig en bieden een goedkope optie om aan de slag te gaan met Azure.
Algemeen gebruik D, DSv2, dv2 Evenwichtige CPU-geheugenverhouding. Dit is ideaal voor testen en ontwikkelen, voor kleine tot middelgrote databases, en webservers met weinig tot gemiddeld verkeer.
Geoptimaliseerde rekenkracht F Hoge CPU-geheugenverhouding. Geschikt voor webservers met gemiddeld verkeer, netwerk apparaten, batch processen en toepassings servers.
Geoptimaliseerd voor geheugen Esv3, Ev3 Hoge geheugen-CPU-verhouding. Zeer geschikt voor relationele databaseservers, middelgrote tot grote caches, en analysefuncties in het geheugen.
  • Zie prijzen voor hdinsightvoor meer informatie over de prijzen van beschik bare VM-exemplaren in de regio's die door hdinsight worden ondersteund.

Kosten besparing van VM-typen voor lichte workloads

Als er lichte verwerkings vereisten gelden, kan de F-serie een goede keuze zijn om aan de slag te gaan met HDInsight. Tegen een lagere prijs per uur levert de F-serie de beste prijs/kwaliteit-verhouding van de Azure-portfolio, gebaseerd op de ACU (Azure Compute Unit) per vCPU.

De volgende tabel beschrijft de cluster typen en knooppunt typen die kunnen worden gemaakt met de virtuele machines uit de Fsv2-serie.

Clustertype Versie Worker-knoop punt Hoofd knooppunt Zookeeper-knoop punt
Spark Alles F4 en hoger nee nee
Hadoop Alles F4 en hoger nee nee
Kafka Alles F4 en hoger nee nee
HBase Alles F4 en hoger nee nee
LLAP geblokkeerd nee nee nee
Storm geblokkeerd nee nee nee
ML-service ALLEEN HDI 3,6 F4 en hoger nee nee

Zie VM-groottenvan de f-serie voor een overzicht van de specificaties van elke SKU uit de f-serie.

Benchmarking

Benchmarking is het proces van het uitvoeren van gesimuleerde werk belastingen op verschillende Vm's om te meten hoe goed ze worden uitgevoerd voor uw productie workloads.

Zie cluster capaciteit plannen in azure HDInsight voor meer informatie over de benchmarking voor VM-sku's en cluster groottes.

Volgende stappen