Clusters in HDInsight instellen met Apache Hadoop, Apache Spark, Apache Kafka en meer

Meer informatie over het instellen en configureren van Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase, ML Services of Apache Storm in HDInsight. Leer ook hoe u clusters kunt aanpassen en beveiliging kunt toevoegen door ze toe te voegen aan een domein.

Een Hadoop-cluster bestaat uit verschillende virtuele machines (knooppunten) die worden gebruikt voor gedistribueerde verwerking van taken. Azure HDInsight verwerkt implementatiedetails van de installatie en configuratie van afzonderlijke knooppunten, zodat u alleen algemene configuratiegegevens hoeft op te geven.

Belangrijk

De facturering voor het gebruik van HDInsight-clusters begint zodra er een cluster is gemaakt en stopt als een cluster wordt verwijderd. De facturering wordt pro-rato per minuut berekend, dus u moet altijd uw cluster verwijderen wanneer het niet meer wordt gebruikt. Meer informatie over het verwijderen van een cluster.

Als u meerdere clusters tegelijk gebruikt, wilt u een virtueel netwerk maken. Als u een Spark-cluster gebruikt, wilt u ook de Hive Warehouse Connector gebruiken. Zie Plan a virtual network voor Azure HDInsight en Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector voor meer informatie.

Installatiemethoden voor clusters

In de volgende tabel ziet u de verschillende methoden die u kunt gebruiken om een HDInsight-cluster in te stellen.

Clusters die zijn gemaakt met Webbrowser Opdrachtregel REST-API SDK
Azure-portal ââ"      
Azure Data Factory ââ" ââ" ââ" ââ"
Azure-CLI   ââ"    
Azure PowerShell   ââ"    
cURL   ââ" ââ"  
Azure Resource Manager-sjablonen   ââ"    

In dit artikel wordt beschreven hoe u het Azure Portal, waar u een HDInsight-cluster kunt maken.

Basisbeginselen

hdinsight create options custom quick

Projectgegevens

Azure Resource Manager helpt u bij het werken met de resources in uw toepassing als een groep, ook wel een Azure-resourcegroep genoemd. U kunt alle resources voor uw toepassing implementeren, bijwerken, bewaken of verwijderen in één gecoördineerde bewerking.

Clusterdetails

Clusternaam

Namen van HDInsight-clusters hebben de volgende beperkingen:

  • Toegestane tekens: a-z, 0-9, A-Z
  • Maximale lengte: 59
  • Gereserveerde namen: apps
  • Het clusternaamgevingsbereik is voor alle Azure-abonnementen. De clusternaam moet dus wereldwijd uniek zijn.
  • De eerste zes tekens moeten uniek zijn binnen een virtueel netwerk

Region

U hoeft de clusterlocatie niet expliciet op te geven: het cluster bevindt zich op dezelfde locatie als de standaardopslag. Selecteer de vervolgkeuzelijst Regio in HDInsight-prijzen voor een lijst met ondersteunde regio's.

Clustertype

Azure HDInsight biedt momenteel de volgende clustertypen, elk met een set onderdelen om bepaalde functies te bieden.

Belangrijk

HDInsight-clusters zijn beschikbaar in verschillende typen, elk voor één workload of technologie. Er is geen ondersteunde methode voor het maken van een cluster waarin meerdere typen worden gecombineerd, zoals Storm en HBase op één cluster. Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de vereiste clustertypen verbinden.

Clustertype Functionaliteit
Hadoop Batchquery en analyse van opgeslagen gegevens
HBase Verwerking voor grote hoeveelheden schemaloze NoSQL-gegevens
Interactive Query In-memory caching voor interactieve en snellere Hive-query's
Kafka Een gedistribueerd streamingplatform dat kan worden gebruikt voor het bouwen van pijplijnen en toepassingen voor realtime streaminggegevens
ML Services Diverse big data, voorspellende modellering en machine learning mogelijkheden
Spark In-memory verwerking, interactieve query's, verwerking van microbatchstreams
Storm Gebeurtenissen in realtime verwerken

Versie

Kies de versie van HDInsight voor dit cluster. Zie Ondersteunde HDInsight-versies voor meer informatie.

Clusterreferenties

Met HDInsight-clusters kunt u twee gebruikersaccounts configureren tijdens het maken van het cluster:

  • Gebruikersnaam voor cluster aanmelden: de standaard gebruikersnaam is admin. Hierbij wordt de basisconfiguratie op de Azure Portal. Soms wordt deze 'Clustergebruiker' of 'HTTP-gebruiker' genoemd.
  • SSH-gebruikersnaam (Secure Shell) : wordt gebruikt om via SSH verbinding te maken met het cluster. Zie SSH gebruiken met HDInsight voor meer informatie.

De HTTP-gebruikersnaam heeft de volgende beperkingen:

  • Toegestane speciale tekens: _ en @
  • Tekens zijn niet toegestaan: #;.', / :'!*?$() {} []<>|&--=+%~^space
  • Maximale lengte: 20

De SSH-gebruikersnaam heeft de volgende beperkingen:

  • Toegestane speciale tekens: _ en @
  • Tekens zijn niet toegestaan: #;.', / :'!*?$() {} []<>|&--=+%~^space
  • Maximale lengte: 64
  • Gereserveerde namen: hadoop, users, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, storm, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Storage

Instellingen voor clusteropslag: HDFS-compatibele eindpunten

Hoewel een on-premises installatie van Hadoop gebruikmaakt van de Hadoop Distributed File System (HDFS) voor opslag op het cluster, gebruikt u in de cloud opslag-eindpunten die zijn verbonden met het cluster. Als u cloudopslag gebruikt, kunt u veilig de HDInsight-clusters verwijderen die worden gebruikt voor berekeningen terwijl uw gegevens behouden blijven.

HDInsight-clusters kunnen gebruikmaken van de volgende opslagopties:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Algemeen v2
  • Azure Storage Algemeen v1
  • Azure Storage Blok-blob (alleen ondersteund als secundaire opslag)

Zie Opslagopties vergelijken voor gebruik met clusterclusters voor meer informatie over opslagopties Azure HDInsight HDInsight.

Waarschuwing

Het gebruik van een extra opslagaccount op een andere locatie dan het HDInsight-cluster wordt niet ondersteund.

Tijdens de configuratie geeft u voor het standaardopslag-eindpunt een blobcontainer van een Azure Storage-account of -Data Lake Storage. De standaardopslag bevat toepassings- en systeemlogboeken. U kunt desgewenst aanvullende gekoppelde accounts Azure Storage en Data Lake Storage-accounts die het cluster kan openen. Het HDInsight-cluster en de afhankelijke opslagaccounts moeten zich op dezelfde Azure-locatie bevinden.

Notitie

Met de functie die beveiligde overdracht vereist , worden alle aanvragen voor uw account afgedwongen via een beveiligde verbinding. Alleen de versie 3,6 of hoger van het HDInsight-cluster ondersteunt deze functie. Zie Apache Hadoop cluster maken met opslag accounts voor veilige overdracht in azure HDInsightvoor meer informatie.

Belangrijk

Het inschakelen van beveiligde opslagoverdracht na het maken van een cluster kan leiden tot fouten met het gebruik van uw opslagaccount. Dit wordt niet aanbevolen. Het is beter om een nieuw cluster te maken met behulp van een opslagaccount met beveiligde overdracht al ingeschakeld.

Notitie

Azure HDInsight verplaatst of kopieert uw gegevens die zijn opgeslagen in Azure Storage niet automatisch van de ene regio naar de andere.

Metastore-instellingen

U kunt optionele Hive- of Apache Oozie-metastores maken. Niet alle clustertypen ondersteunen echter metastores en Azure Synapse Analytics niet compatibel met metastores.

Zie Use external metadata stores in Azure HDInsight (Externe metagegevensopslag gebruiken in Azure HDInsight).

Belangrijk

Wanneer u een aangepaste metastore maakt, moet u geen streepjes, afbreekstreepels of spaties in de databasenaam gebruiken. Dit kan ertoe leiden dat het maken van het cluster mislukt.

SQL database voor Hive

Als u uw Hive-tabellen wilt behouden nadat u een HDInsight-cluster hebt verwijderd, gebruikt u een aangepaste metastore. Vervolgens kunt u de metastore koppelen aan een ander HDInsight-cluster.

Een HDInsight-metastore die is gemaakt voor één HDInsight-clusterversie kan niet worden gedeeld met verschillende HDInsight-clusterversies. Zie Ondersteunde HDInsight-versies voor een lijst met HDInsight-versies.

Belangrijk

De standaard metastore biedt een Azure SQL Database met een DTU-limiet van basic laag 5 (niet bij te werken)! Geschikt voor eenvoudige testdoeleinden. Voor grote of productieworkloads wordt u aangeraden te migreren naar een externe metastore.

SQL database voor Oozie

Als u de prestaties wilt verbeteren bij het gebruik van Oozie, gebruikt u een aangepaste metastore. Een metastore kan ook toegang bieden tot Oozie-taakgegevens nadat u uw cluster hebt verwijderd.

SQL database voor Ambari

Ambari wordt gebruikt om HDInsight-clusters te bewaken, configuratiewijzigingen aan te brengen en informatie over clusterbeheer en taakgeschiedenis op te slaan. Met de aangepaste Ambari DB-functie kunt u een nieuw cluster implementeren en Ambari instellen in een externe database die u beheert. Zie Aangepaste Ambari DB voor meer informatie.

Belangrijk

U kunt een aangepaste Oozie-metastore niet opnieuw gebruiken. Als u een aangepaste Oozie-metastore wilt gebruiken, moet u een lege Azure SQL Database bij het maken van het HDInsight-cluster.

Beveiliging en netwerken

hdinsight create options choose enterprise security package (Opties voor hdinsight maken) kies Enterprise Security Package

Enterprise-beveiligingspakket

Voor hadoop-, Spark-, HBase-, Kafka- en Interactive Query-clustertypen kunt u ervoor kiezen om de Enterprise Security Package. Dit pakket biedt de mogelijkheid om een veiliger cluster in te stellen met behulp van Apache Ranger en te integreren met Azure Active Directory. Zie Overzicht van bedrijfsbeveiliging in Azure HDInsight voor meer Azure HDInsight.

Met het Enterprise-beveiligingspakket kunt u HDInsight integreren met Active Directory en Apache Ranger. Er kunnen meerdere gebruikers worden gemaakt met behulp van het Enterprise-beveiligingspakket.

Zie Create domain-joined HDInsight sandbox environment (Aan een domein toevoegende HDInsight-sandboxomgevingmaken) voor meer informatie over het maken van een HDInsight-cluster dat lid is van een domein.

TLS

Zie voor meer informatie Transport Layer Security

Virtueel netwerk

Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de vereiste clustertypen verbinden. Met deze configuratie kunnen de clusters en alle code die u in deze clusters implementeert, rechtstreeks met elkaar communiceren.

Zie Een virtueel netwerk plannen voor HDInsight voor meer informatie over het gebruik van een virtueel Azure-netwerk met HDInsight.

Zie Apache Spark Structured Streaming gebruiken met Apache Kafka voor een voorbeeld van het gebruik van twee clustertypen in een virtueel Azure-netwerk. Zie Een virtueel netwerk plannen voor HDInsight voor meer informatie over het gebruik van HDInsightmet een virtueel netwerk, inclusief specifieke configuratievereisten voor het virtuele netwerk.

Instelling voor schijfversleuteling

Zie Schijfversleuteling met door de klant beheerde sleutel voor meer informatie.

Kafka REST-proxy

Deze instelling is alleen beschikbaar voor het clustertype Kafka. Zie Using a REST proxy (Een REST-proxy gebruiken) voor meer informatie.

Identiteit

Zie Beheerde identiteiten in Azure HDInsight voor meer Azure HDInsight.

Configuratie en prijzen

HDInsight uw knooppuntgrootte kiezen

U wordt gefactureerd voor het gebruik van knooppunt zolang het cluster bestaat. Facturering begint wanneer een cluster wordt gemaakt en stopt wanneer het cluster wordt verwijderd. Clusters kunnen niet worden verwijderd of in de wacht worden gezet.

Knooppuntconfiguratie

Elk clustertype heeft een eigen aantal knooppunten, terminologie voor knooppunten en standaard VM-grootte. In de volgende tabel staat het aantal knooppunten voor elk knooppunttype tussen haakjes.

Type Knooppunten Diagram
Hadoop Hoofd-knooppunt (2), werkpunt (1+) HDInsight Hadoop-clusterknooppunten
HBase Hoofdserver (2), regioserver (1+), hoofd-/ZooKeeper-knooppunt (3) HdInsight HBase-clustertype instellen
Storm Nimbus-knooppunt (2), supervisorserver (1+), ZooKeeper-knooppunt (3) HdInsight Storm-clustertype instellen
Spark Hoofd knooppunt (2), werkpunt (1+), ZooKeeper-knooppunt (3) (gratis voor A1 ZooKeeper VM-grootte) Installatie van hdinsight spark-clustertype

Zie Standaardconfiguratie van knooppunt en grootten voor virtuele machines voor clusters in Wat zijn de Hadoop-onderdelen en -versies in HDInsight? voor meer informatie.

De kosten van HDInsight-clusters worden bepaald door het aantal knooppunten en de grootte van virtuele machines voor de knooppunten.

Verschillende clustertypen hebben verschillende knooppunttypen, aantallen knooppunten en knooppuntgrootten:

  • Standaard hadoop-clustertype:
    • Twee hoofdknooppunten
    • Vier werkknooppunten
  • Standaardtype Storm-cluster:
    • Twee Nimbus-knooppunten
    • Drie ZooKeeper-knooppunten
    • Vier supervisor-knooppunten

Als u alleen HDInsight probeert, raden we u aan één Worker-knooppunt te gebruiken. Zie Prijzen voor HDInsight voor meer informatie over hdinsight-prijzen.

Notitie

De limiet voor de clustergrootte verschilt per Azure-abonnement. Neem contact op met ondersteuning voor Azure-facturering om de limiet te verhogen.

Wanneer u de Azure Portal om het cluster te configureren, is de knooppuntgrootte beschikbaar via het tabblad Configuratie en prijzen. In de portal ziet u ook de kosten die zijn gekoppeld aan de verschillende knooppuntgrootten.

Grootten van virtuele machines

Wanneer u clusters implementeert, kiest u rekenbronnen op basis van de oplossing die u wilt implementeren. De volgende VM's worden gebruikt voor HDInsight-clusters:

Zie VM-grootten die moeten worden gebruikt voor HDInsight-clustersals u wilt weten welke waarde u moet gebruiken om een VM-grootte op te geven tijdens het maken van een cluster met behulp van de verschillende SDK's of tijdens het gebruik van Azure PowerShell. Gebruik in dit gekoppelde artikel de waarde in de kolom Grootte van de tabellen.

Belangrijk

Als u meer dan 32 werkknooppunten in een cluster nodig hebt, moet u een hoofdknooppuntgrootte met ten minste 8 kernen en 14 GB RAM selecteren.

Zie Grootten voor virtuele machines voor meer informatie. Zie HDInsight-prijzenvoor informatie over prijzen van verschillende grootten.

Toepassing toevoegen

Een HDInsight-toepassing is een toepassing die gebruikers kunnen installeren op een op Linux gebaseerd HDInsight-cluster. U kunt toepassingen gebruiken die worden geleverd door Microsoft, derden of die u zelf ontwikkelt. Zie Apache Hadoop-toepassingen van derden installerenop Azure HDInsight voor meer Azure HDInsight.

De meeste HDInsight-toepassingen worden geïnstalleerd op een leeg edge-knooppunt. Een leeg edge-knooppunt is een virtuele Linux-machine met dezelfde clienthulpprogramma's geïnstalleerd en geconfigureerd als in het hoofd-knooppunt. U kunt het edge-knooppunt gebruiken voor toegang tot het cluster, het testen van uw clienttoepassingen en het hosten van uw clienttoepassingen. Zie Lege edge-knooppunten gebruiken in HDInsight voor meer informatie.

Scriptacties

U kunt extra onderdelen installeren of de clusterconfiguratie aanpassen met behulp van scripts tijdens het maken. Dergelijke scripts worden aangeroepen via scriptactie. Dit is een configuratieoptie die kan worden gebruikt vanuit de Azure Portal-, HDInsight-Windows PowerShell-cmdlets of de HDInsight .NET SDK. Zie HDInsight-cluster aanpassen met scriptactie voor meer informatie.

Sommige systeemeigen Java-onderdelen, zoals Apache Mahout en Cascading, kunnen als Java Archive-bestanden (JAR) op het cluster worden uitgevoerd. Deze JAR-bestanden kunnen worden gedistribueerd naar Azure Storage verzonden naar HDInsight-clusters met hadoop-mechanismen voor het indienen van een taak. Zie Apache Hadoop-taken programmatisch verzenden voor meer informatie.

Notitie

Als u problemen hebt met het implementeren van JAR-bestanden in HDInsight-clusters of het aanroepen van JAR-bestanden op HDInsight-clusters, neem dan contact op met Microsoft-ondersteuning.

Cascading wordt niet ondersteund door HDInsight en komt niet in aanmerking voor Microsoft-ondersteuning. Zie Wat is er nieuw in de clusterversies van HDInsightvoor lijsten met ondersteunde onderdelen.

Soms wilt u de volgende configuratiebestanden configureren tijdens het aanmaakproces:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • storm-site.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Zie HDInsight-clusters aanpassen met Bootstrap voor meer informatie.

Volgende stappen