Snelstart: Een Apache Hadoop-cluster maken in Azure HDInsight met Azure Portal
In dit artikel leert u hoe u Apache Hadoop-clusters maakt in HDInsight met behulp van de Azure-portal en vervolgens Apache Hive-taken uitvoert in HDInsight. De meeste Hadoop-taken zijn batchtaken. U maakt een cluster, voert enkele taken uit en verwijdert het cluster vervolgens. In dit artikel gaat u al deze drie taken uitvoeren. Zie Clusters instellen in HDInsight voor uitgebreide uitleg over de beschikbare configuraties. Zie Clusters maken in de portal voor meer informatie over het gebruik van de portal om clusters te maken.
In deze snelstartgids gebruikt u Azure Portal voor het maken van een Hadoop-cluster in HDInsight. U kunt ook een cluster maken met behulp van een Azure Resource Manager-sjabloon.
Op dit moment wordt HDInsight geleverd met zeven verschillende clustertypen. Elk clustertype ondersteunt een andere set onderdelen. Alle clustertypen ondersteunen Hive. Zie Wat is er nieuw in de Apache Hadoop-clusterversies geleverd door HDInsight? voor een lijst met ondersteunde onderdelen in HDInsight.
Als u geen abonnement op Azure hebt, maakt u een gratis account voordat u begint.
Een Apache Hadoop-cluster maken
In deze sectie maakt u een Hadoop-cluster in HDInsight met behulp van Azure Portal.
Meld u aan bij de Azure Portal.
Selecteer + Een resource maken in het menu aan de bovenkant.
Selecteer Analytics > Azure HDInsight om naar de pagina HDInsight-cluster maken te gaan.
Geef op het tabblad Basis de volgende gegevens op:
Eigenschap Beschrijving Abonnement Selecteer in de vervolgkeuzelijst het Azure-abonnement dat wordt gebruikt voor het cluster. Resourcegroep Selecteer in de vervolgkeuzelijst de bestaande resourcegroep of selecteer Nieuwe maken. Clusternaam Geef een wereldwijd unieke naam op. De naam mag bestaan uit maximaal 59 tekens, inclusief letters, cijfers en afbreekstreepjes. De eerste en laatste tekens van de naam mogen geen streepjes zijn. Region Selecteer in de vervolgkeuzelijst een regio waarin het cluster wordt gemaakt. Kies een locatie zo dicht mogelijk bij u in de buurt voor betere prestaties. Clustertype Selecteer Clustertype selecteren. Selecteer vervolgens Hadoop als het clustertype. Versie Selecteer een versie in de vervolgkeuzelijst. Gebruik de standaardversie als u niet weet wat u moet kiezen. Gebruikersnaam/Wachtwoord voor clusteraanmeldgegevens De standaardaanmeldingsnaam is admin. Het wachtwoord moet uit minstens tien tekens bestaan en moet minstens één cijfer, één hoofdletter, één kleine letter en één niet-alfanumeriek teken bevatten (uitgezonderd ' " ` ). Zorg ervoor dat u geen makkelijk te raden wachtwoorden gebruikt, zoals 'Pass@word1'. SSH-gebruikersnaam (Secure Shell) De standaardgebruikersnaam is sshuser. U kunt hier echter een andere naam opgeven als u dat wilt. Het wachtwoord voor clusteraanmelding gebruiken voor SSH Schakel dit selectievakje in als u voor de SSH-gebruiker het wachtwoord wilt gebruiken dat u hebt opgegeven voor Wachtwoord voor clusteraanmeldgegevens.
Selecteer de knop Volgende: Opslag >> om door te gaan naar de opslaginstellingen.
Geef op het tabblad Opslag de volgende waarden op:
Eigenschap Beschrijving Type van primaire opslag Gebruik de standaardwaarde Azure Storage. Selectiemethode Gebruik de standaardwaarde Selecteer in lijst. Primair opslagaccount Gebruik de vervolgkeuzelijst om een bestaand opslagaccount te selecteren of selecteer Nieuwe maken. Als u een nieuw account maakt, moet de naam 3 tot 24 tekens lang zijn en mag deze alleen cijfers en kleine letters bevatten Container Gebruik de waarde die automatisch is ingevuld.
Elk cluster heeft een Azure Storage account, een Azure Data Lake Gen1of een
Azure Data Lake Storage Gen2afhankelijkheid. Dit wordt het standaardopslagaccount genoemd. Het HDInsight-cluster en het standaardopslagaccount moeten samen in dezelfde Azure-regio worden geplaatst. Het opslagaccount wordt niet verwijderd wanneer er clusters worden verwijderd.Selecteer het tabblad Beoordelen en maken.
Controleer op het tabblad Beoordelen en maken de waarden die u in de eerdere stappen hebt geselecteerd.
Selecteer Maken. Het duurt ongeveer 20 minuten om een cluster te maken.
Zodra het cluster is gemaakt, ziet u de overzichtspagina van het cluster in Azure Portal.
Apache Hive-query's uitvoeren
Apache Hive is het meest populaire onderdeel dat in HDInsight wordt gebruikt. Er zijn veel manieren om Hive-taken uit te voeren in HDInsight. In deze quickstart gebruikt u de Ambari Hive-weergave in de portal. Voor andere methoden voor het indienen van Hive-taken raadpleegt u Hive gebruiken in HDInsight.
Notitie
Apache Hive-weergave is niet beschikbaar in HDInsight 4.0.
Als u Ambari wilt openen, selecteert u Clusterdashboard in de vorige schermafbeelding. U kunt ook bladeren naar
https://ClusterName.azurehdinsight.net, waarbijClusterNamehet cluster is dat u in de vorige sectie hebt gemaakt.
Voer de gebruikersnaam en het wachtwoord voor Hadoop in die u hebt opgegeven tijdens het maken van het cluster. De standaardgebruikersnaam admin.
Open Hive-weergave zoals weergegeven in de volgende schermafbeelding:
Plak in het tabblad QUERY de volgende HiveQL-instructies in het werkblad:
SHOW TABLES;
Selecteer Uitvoeren. Er wordt een tabblad RESULTATEN weergegeven onder het tabblad QUERY met informatie over de taak.
Nadat de query is voltooid, worden de resultaten van de bewerking weergegeven op het tabblad QUERY. U ziet één tabel met de naam hivesampletable. Deze Hive-voorbeeldtabel is bij alle HDInsight-clusters inbegrepen.
Herhaal stap 4 en 5 om de volgende query uit te voeren:
SELECT * FROM hivesampletable;U kunt de resultaten van de query ook opslaan. Selecteer de menuknop aan de rechterkant en geef aan of u de resultaten wilt downloaden als een CSV-bestand of deze wilt opslaan in het opslagaccount dat aan het cluster is gekoppeld.
Nadat u een Hive-taak hebt voltooid, kunt u de resultaten exporteren naar een Azure SQL Database- of SQL Server-database. U kunt ook de resultaten weergeven in Excel. Zie Apache Hive en HiveQL gebruiken met Apache Hadoop in HDInsight voor het analyseren van een voorbeeldbestand van de Apache-log4j voor meer informatie over het gebruik van Hive in HDInsight.
Resources opschonen
Nadat u de quickstart hebt voltooid, kunt u het cluster verwijderen. Met HDInsight worden uw gegevens opgeslagen in Azure Storage zodat u een cluster veilig kunt verwijderen wanneer deze niet wordt gebruikt. Voor een HDInsight-cluster worden ook kosten in rekening gebracht, zelfs wanneer het niet wordt gebruikt. Aangezien de kosten voor het cluster vaak zoveel hoger zijn dan de kosten voor opslag, is het financieel gezien logischer clusters te verwijderen wanneer ze niet worden gebruikt.
Notitie
Als u meteen verder wilt gaan met het volgende artikel om te leren hoe u ETL-bewerkingen uitvoert met behulp van Hadoop in HDInsight, kunt u het cluster beter behouden. In die zelfstudie hebt u namelijk ook een Hadoop-cluster nodig. Als u echter niet direct verdergaat met het volgende artikel, moet u het cluster nu verwijderen.
Het cluster en/of het standaardopslagaccount verwijderen
Ga terug naar het browsertabblad voor Azure Portal. U komt terecht op de overzichtspagina voor het cluster. Selecteer Verwijderen als u alleen het cluster wilt verwijderen maar het standaardopslagaccount wilt behouden.
Als u het cluster en het standaardopslagaccount wilt verwijderen, selecteert u de naam van de resourcegroep (gemarkeerd in de vorige schermafbeelding) om de pagina van de resourcegroep te openen.
Selecteer Resourcegroep verwijderen om de resourcegroep te verwijderen. De groep bevat zowel het cluster als het standaardopslagaccount. Als u de resourcegroep verwijdert, wordt ook het opslagaccount verwijderd. Als u het opslagaccount wilt behouden, verwijdert u alleen het cluster.
Volgende stappen
In deze quickstart hebt u geleerd hoe u een HDInsight-cluster op basis van Linux maakt met behulp van een Resource Manager-sjabloon, en hoe u eenvoudige Hive-query's uitvoert. In het volgende artikel leert u hoe u een ETL-bewerking (Extraction, Transformation, Loading) uitvoert met behulp van Hadoop in HDInsight.