Een HDInsight-cluster maken

Voltooid

Er zijn verschillende methoden voor het maken van een HDInsight-cluster. Dit kan variëren van het gebruik van Azure Portal voor een eenvoudige gebruikersinterface tot gescripte instellingen die kunnen helpen bij geautomatiseerde implementaties. In de volgende tabel ziet u de verschillende methoden die u kunt gebruiken om een HDInsight-cluster in te stellen.

Clusters gemaakt met Webbrowser Opdrachtregel REST-API SDK
Azure Portal
Azure Data Factory
Azure-CLI
Azure PowerShell
cURL
.NET SDK
Azure Resource Manager-sjabloon

Voor alle HDInsight-instellingen zijn de volgende basisinformatie vereist, waaronder:

Tabblad Basisbeginselen

Projectgegevens

Abonnement

Hiermee definieert u het Azure-abonnement waaronder HDInsight wordt gefactureerd en beheerd.

Naam van resourcegroep

Een resourcegroep is een logische groepering van Azure-technologieën en -services die doorgaans betrekking hebben op dezelfde toepassing of toepassingslevenscyclus. Het groeperen van services in dezelfde resourcegroep vereenvoudigt het beheeronderhoud.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Clusterdetails

Clusternaam

HdInsight-clusternamen hebben de volgende beperkingen:

  • Toegestane tekens: a-z, 0-9, A-Z
  • Maximale lengte: 59
  • Gereserveerde namen: apps
  • Het clusternaambereik is voor alle Azure-abonnementen. De clusternaam moet dus wereldwijd uniek zijn.
  • De eerste zes tekens moeten uniek zijn binnen een VNET

Locatie

Hiermee geeft u de locatie op waar het clustertype wordt opgeslagen. Als er geen locatie is gedefinieerd, wordt het cluster op dezelfde locatie als de standaardopslag opgeslagen. De locatie moet zo dicht mogelijk bij uw gebruikers liggen om de latentie te verminderen.

Clustertypen

Definieert de technologiestack die is ingericht op uw cluster met resources. Selecteer een clustertype op basis van het type gegevens dat u hebt en het type verwerking dat uw scenario vereist. Beschikbare clustertypen die worden weergegeven in de volgende tabel.  

Clustertype Beschrijving
Apache Hadoop Een framework dat gebruikmaakt van HDFS en een eenvoudig MapReduce-programmeermodel voor het verwerken en analyseren van batchgegevens. 
Apache Spark Een opensourcekader voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van toepassingen voor de analyse van big data te verbeteren.
HBase Een NoSQL-database gebouwd op Hadoop. Deze biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden (mogelijk miljarden rijen bij miljoenen kolommen) ongestructureerde en semi-gestructureerde gegevens. 
Apache Interactive Query Caching in geheugen voor interactieve en snellere Hive-query's. 
Apache Kafka Een opensourceplatform dat wordt gebruikt voor het bouwen van pijplijnen en toepassingen voor het streamen van gegevens. Kafka biedt ook berichtenwachtrijfunctionaliteit waarmee u gegevensstromen kunt publiceren en zich kunt abonneren op gegevensstromen.

Versie

Hiermee definieert u de versie van HDInsight voor dit cluster. HDInsight 4.0 is de nieuwste versie en bevat de meest recente frameworks die zijn ingericht voor clusters.

Clusterreferenties

Met HDInsight-clusters kunt u twee gebruikersaccounts configureren tijdens het maken van het cluster.

Clusteraanmelding en -wachtwoord

De standaardgebruikersnaam is beheerder. Deze maakt gebruik van de basisconfiguratie in Azure Portal. Soms wordt het clustergebruiker genoemd.

SSH-gebruikersnaam en SSH-wachtwoord

Wordt gebruikt om via SSH verbinding te maken met het cluster.

Notitie

Met het Enterprise-beveiligingspakket kunt u HDInsight integreren met Active Directory en Apache Ranger. Er kunnen meerdere gebruikers worden gemaakt met behulp van het Enterprise-beveiligingspakket.

Tabblad Opslag

HDInsight-clusters kunnen de volgende opslagopties gebruiken, zoals wordt weergegeven in het opslagscherm:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Algemeen gebruik v2
  • Azure Storage Algemeen gebruik v1
  • Blok-blob van Azure Storage (alleen ondersteund als secundaire opslag)

Met het opslagscherm kunt u het primaire opslagaccount en de standaardcontainer definiëren. U kunt ook extra Azure Storage koppelen aan het cluster. Met de Metastore-instellingen kunt u een externe SQL-database definiëren om Hive-tabellen op te slaan nadat een cluster is verwijderd en om de prestaties van Oozie te verbeteren door de metagegevens op te slaan in een extern archief.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Beveiliging en netwerken

Voor hadoop-, Spark-, HBase-, Kafka- en Interactive Query-clustertypen kunt u ervoor kiezen om het Enterprise Security Package in te schakelen. Dit pakket biedt de mogelijkheid om een veiligere clusterinstallatie te hebben met behulp van Apache Ranger en integratie met Microsoft Entra ID.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Daarnaast wordt het altijd aanbevolen OM HDInsight-clusters in een VNet te implementeren en kunt u de virtuele netwerken in dit scherm definiëren en instellen. Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de vereiste clustertypen verbinden. Met deze configuratie kunnen de clusters en alle code die u erop implementeert, rechtstreeks met elkaar communiceren.

Configuratie en prijzen

Op deze pagina kunt u de grootte en prestaties van uw cluster configureren en geschatte kostengegevens bekijken. In dit scherm kunt u de virtuele machines definiëren die worden gebruikt voor de hoofdknooppunten (hoofdknooppunten) en voor de werkrollenknooppunten.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal