Démarrage rapide : créer un cluster Apache Hadoop dans Azure HDInsight à l’aide du portail AzureQuickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

Dans cet article, vous apprenez à créer des clusters Apache Hadoop dans HDInsight à l’aide du portail Azure, puis à exécuter des travaux Apache Hive dans HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. La plupart des tâches Hadoop sont des tâches de traitements par lots.Most of Hadoop jobs are batch jobs. Vous créez un cluster, exécutez certaines tâches, puis supprimez le cluster.You create a cluster, run some jobs, and then delete the cluster. Dans cet article, vous allez effectuer les trois tâches.In this article, you perform all the three tasks.

Dans ce guide de démarrage rapide, vous utilisez le portail Azure pour créer un cluster HDInsight Hadoop.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. Vous pouvez aussi créer un cluster à l’aide du modèle Azure Resource Manager.You can also create a cluster using the Azure Resource Manager template.

HDInsight est actuellement fournie avec sept types de cluster.Currently HDInsight comes with seven different cluster types. Chaque type de cluster prend en charge un ensemble de composants bien spécifiques.Each cluster type supports a different set of components. Tous les types de cluster prennent en charge Hive.All cluster types support Hive. Pour obtenir la liste des composants pris en charge dans HDInsight, consultez Quels sont les composants et versions Apache Hadoop disponibles avec HDInsight ?For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Si vous ne disposez pas d’abonnement Azure, créez un compte gratuit avant de commencer.If you don't have an Azure subscription, create a free account before you begin.

Créer un cluster Apache HadoopCreate an Apache Hadoop cluster

Cette section vous permet de créer un cluster Hadoop dans HDInsight à l’aide du portail Azure.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Connectez-vous au portail Azure.Sign in to the Azure portal.

  2. Sur le portail Azure, accédez à Créer une ressource > Analytique > HDInsight.From the Azure portal, go to Create a resource > Analytics > HDInsight.

    Créer un cluster HDInsight de ressourceCreate a resource HDInsight cluster

  3. Sous Informations de base, entrez ou sélectionnez les valeurs suivantes :Under Basics, enter or select the following values:

    PropriétéProperty DescriptionDescription
    SubscriptionSubscription Sélectionnez votre abonnement Azure.Select your Azure subscription.
    Resource groupResource group Sélectionnez un groupe de ressources existant ou créez-en un.Create a resource group or select an existing resource group. Un groupe de ressources est un conteneur de composants Azure.A resource group is a container of Azure components. Dans ce cas, le groupe de ressources contient le cluster HDInsight et le compte de stockage Azure dépendant.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    Nom du clusterCluster name Entrez un nom pour le cluster Hadoop.Enter a name for the Hadoop cluster. Étant donné que tous les clusters HDInsight partagent le même espace de noms DNS, ce nom doit être unique.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. Le nom peut comporter jusqu’à 59 caractères, dont des lettres, des chiffres et des traits d’union.The name can consist of up to 59 characters including letters, numbers, and hyphens. Le premier caractère et le dernier caractère du nom ne peuvent pas être des traits d’union.The first and last characters of the name cannot be hyphens.
    LocationLocation Sélectionnez l’emplacement Azure où vous souhaitez créer votre cluster.Select an Azure location where you want to create your cluster. Choisissez un emplacement proche de vous pour obtenir des performances optimales.Choose a location closer to you for better performance.
    Type de clusterCluster type Choisissez Sélectionner un type de cluster.Select Select cluster type. Sélectionnez ensuite Hadoop comme type de cluster.Then select Hadoop as the cluster type.
    VersionVersion La version par défaut du type de cluster sera spécifiée.The default version for the cluster type will be specified. Sélectionnez une version dans la liste déroulante si vous souhaitez en spécifier une différente.Select from the drop-down list if you wish to specify a different version.
    Nom d’utilisateur et mot de passe du clusterCluster login username and password Le nom de connexion par défaut est admin. Le mot de passe doit comporter au moins 10 caractères et inclure au moins un chiffre, une lettre majuscule, une lettre minuscule et un caractère non alphanumérique (à l’exception de ’ " ` ).The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Veillez à ne pas indiquer des mots de passe courants comme « Pass@word1 ».Make sure you do not provide common passwords such as "Pass@word1".
    Nom d’utilisateur SSH (Secure Shell)Secure Shell (SSH) username Le nom d’utilisateur par défaut est sshuser.The default username is sshuser. Vous pouvez fournir un autre nom pour le nom d’utilisateur SSH.You can provide another name for the SSH username.
    Utiliser le mot de passe de connexion au cluster pour SSHUse cluster login password for SSH Cochez cette case pour utiliser le même mot de passe utilisateur SSH que celui fourni pour l’utilisateur de connexion au cluster.Select this check box to use the same password for SSH user as the one you provided for the cluster login user.

    Prise en main de HDInsight Linux en fournissant les valeurs de base du clusterHDInsight Linux get started provide cluster basic values

    Sélectionnez le bouton Suivant : Stockage >> pour passer aux paramètres de stockage.Select the Next: Storage >> to advance to the storage settings.

  4. À partir de l’onglet Stockage, indiquez les valeurs suivantes :From the Storage tab, provide the following values:

    PropriétéProperty DescriptionDescription
    Type de stockage principalPrimary storage type Utilisez la valeur par défaut : Stockage Azure.Use the default value Azure Storage.
    Méthode de sélectionSelection method Utilisez la valeur par défaut : Sélectionner dans la liste.Use the default value Select from list.
    Compte de stockage principalPrimary storage account Utilisez la liste déroulante pour sélectionner un compte de stockage existant, ou sélectionnez Créer nouveau.Use the drop-down list to select an existing storage account, or select Create new. Si vous créez un compte, son nom doit contenir entre 3 et 24 caractères alphanumériques minuscules.If you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only
    ConteneurContainer Utilisez la valeur renseignée automatiquement.Use the autopopulated value.

    Prise en main de HDInsight Linux en fournissant les valeurs de stockage du clusterHDInsight Linux get started provide cluster storage values

    Sélectionnez l’onglet Vérifier + créer.Select the Review + create tab.

  5. Sous l’onglet Vérifier + créer, vérifiez les valeurs que vous avez sélectionnées dans les étapes précédentes.From the Review + create tab, verify the values you selected in the earlier steps.

    Prise en main de HDInsight Linux avec le résumé du clusterHDInsight Linux get started cluster summary

  6. Sélectionnez Create (Créer).Select Create. La création d’un cluster prend environ 20 minutes.It takes about 20 minutes to create a cluster.

Une fois que le cluster est créé, la page de vue d’ensemble du cluster s’affiche dans le portail Azure.Once the cluster is created, you see the cluster overview page in the Azure portal.

Prise en main de HDInsight Linux avec les paramètres du clusterHDInsight Linux get started cluster settings

Chaque cluster possède une dépendance compte de stockage Azure ou compte Azure Data Lake.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Elle est désignée comme compte de stockage par défaut.It is referred as the default storage account. Le cluster HDInsight et son compte de stockage par défaut doivent figurer dans la même région Azure.HDInsight cluster and its default storage account must be colocated in the same Azure region. La suppression de clusters n’a pas pour effet de supprimer le compte de stockage.Deleting clusters does not delete the storage account.

Notes

Pour obtenir d’autres méthodes de création de cluster et comprendre les propriétés utilisées dans ce guide de démarrage rapide, consultez Créer des clusters HDInsight.For other cluster creation methods and understanding the properties used in this quickstart, see Create HDInsight clusters.

Exécuter des requêtes Apache HiveRun Apache Hive queries

Apache Hive est le composant le plus populaire utilisé dans HDInsight.Apache Hive is the most popular component used in HDInsight. Il existe de nombreuses façons d’exécuter des tâches Hive dans HDInsight.There are many ways to run Hive jobs in HDInsight. Dans ce démarrage rapide, vous allez utiliser l’affichage Ambari Hive à partir du portail.In this quickstart, you use the Ambari Hive view from the portal. Pour d’autres méthodes d’envoi de tâches Hive, consultez la page Utilisation de Hive et HiveQL avec Hadoop dans HDInsight pour l’analyse d’un exemple de fichier Apache log4j.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Pour ouvrir Ambari, sélectionnez Tableau de bord du cluster à partir de la capture d’écran précédente.To open Ambari, from the previous screenshot, select Cluster Dashboard. Vous pouvez également accéder à https://ClusterName.azurehdinsight.net, où ClusterName est le cluster que vous avez créé dans la section précédente.You can also browse to https://ClusterName.azurehdinsight.net, where ClusterName is the cluster you created in the previous section.

    Prise en main de HDInsight Linux avec le réseau en cluster du clusterHDInsight Linux get started cluster dashboard

  2. Entrez le nom d’utilisateur Hadoop et le mot de passe que vous avez spécifiés lors de la création du cluster.Enter the Hadoop username and password that you specified while creating the cluster. Le nom d’utilisateur par défaut est admin.The default username is admin.

  3. Ouvrez l’affichage Hive comme illustré dans la capture d’écran suivante :Open Hive View as shown in the following screenshot:

    Sélection d’Affichage Hive à partir d’AmbariSelecting Hive View from Ambari

  4. Dans l’onglet REQUÊTE, collez les instructions HiveQL suivantes dans la feuille de calcul :In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    Éditeur de requête d’Affichage Hive dans HDInsightHDInsight Hive View Query Editor

  5. Sélectionnez Exécuter.Select Execute. Un onglet RÉSULTATS apparaît sous l’onglet REQUÊTE et affiche des informations sur le travail.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Une fois la requête terminée, l’onglet REQUÊTE affiche les résultats de l’opération.Once the query has finished, the QUERY tab displays the results of the operation. Vous devriez voir une table appelée hivesampletable.You shall see one table called hivesampletable. Cet exemple de table Hive est fourni avec les clusters HDInsight.This sample Hive table comes with all the HDInsight clusters.

    Résultats d’Affichage Apache Hive dans HDInsightHDInsight Apache Hive view results

  6. Répétez les étapes 4 et 5 pour exécuter la requête suivante :Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. Vous pouvez également enregistrer les résultats de la requête.You can also save the results of the query. Sélectionnez le bouton de menu à droite et spécifiez si vous souhaitez télécharger les résultats sous la forme d’un fichier CSV ou les stocker dans le compte de stockage associé au cluster.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Enregistrer le résultat d’une requête Apache HiveSave result of Apache Hive query

Une fois que vous avez terminé une tâche Hive, vous pouvez exporter les résultats dans une base de données Azure SQL ou SQL Server. Vous pouvez également visualiser les résultats à l’aide d’Excel.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Pour plus d’informations sur l’utilisation de Hive dans HDInsight, consultez Utilisation d’Apache Hive et HiveQL avec Apache Hadoop dans HDInsight pour l’analyse d’un exemple de fichier Apache log4j.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Supprimer des ressourcesClean up resources

Après avoir suivi ce guide de démarrage rapide, vous souhaiterez peut-être supprimer le cluster.After you complete the quickstart, you may want to delete the cluster. Avec HDInsight, vos données sont stockées Azure Storage, pour que vous puissiez supprimer un cluster en toute sécurité s’il n’est pas en cours d’utilisation.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Vous devez également payer pour un cluster HDInsight, même lorsque vous ne l’utilisez pas.You are also charged for an HDInsight cluster, even when it is not in use. Étant donné que les frais pour le cluster sont bien plus élevés que les frais de stockage, économique, mieux vaut supprimer les clusters lorsqu’ils ne sont pas utilisés.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Notes

Si vous passez immédiatement à l’article suivant pour apprendre à exécuter des opérations ETL à l’aide de Hadoop sur HDInsight, vous pouvez garder le cluster en cours d’exécution.If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. En effet, vous devrez à nouveau créer un cluster Hadoop dans le tutoriel.This is because in the tutorial you have to create a Hadoop cluster again. Toutefois, si vous ne passez pas immédiatement à l’article suivant, vous devez supprimer le cluster maintenant.However, if you are not going through the next article right away, you must delete the cluster now.

Pour supprimer le cluster et/ou le compte de stockage par défautTo delete the cluster and/or the default storage account

  1. Revenez à l’onglet du navigateur dans lequel se trouve le portail Azure.Go back to the browser tab where you have the Azure portal. Vous devez être sur la page de vue d’ensemble du cluster.You shall be on the cluster overview page. Sélectionnez Supprimer si vous souhaitez seulement supprimer le cluster, mais conserver le compte de stockage par défaut.If you only want to delete the cluster but retain the default storage account, select Delete.

    Suppression de cluster Azure HDInsightAzure HDInsight delete cluster

  2. Si vous souhaitez supprimer le cluster ainsi que le compte de stockage par défaut, sélectionnez le nom du groupe de ressources (encadré dans la capture d’écran précédente) pour ouvrir la page du groupe de ressources.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Sélectionnez Supprimer le groupe de ressources pour supprimer le groupe de ressources, qui contient le cluster et le compte de stockage par défaut.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Notez que la suppression du groupe de ressources aura pour effet de supprimer le compte de stockage.Note deleting the resource group deletes the storage account. Si vous souhaitez conserver le compte de stockage, choisissez de supprimer uniquement le cluster.If you want to keep the storage account, choose to delete the cluster only.

Étapes suivantesNext steps

Dans ce guide de démarrage rapide, vous avez appris à créer un cluster HDInsight Linux à l’aide d’un modèle Resource Manager et à effectuer des requêtes Hive de base.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. Dans l’article suivant, vous apprendrez à effectuer une opération d’extraction, de transformation et de chargement (ETL) à l’aide de Hadoop sur HDInsight.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.