Connecter Excel à Apache Hadoop dans Azure HDInsight avec le pilote ODBC Microsoft Hive

La solution Big Data de Microsoft intègre des composants décisionnels (Business Intelligence) Microsoft aux clusters Apache Hadoop déployés dans HDInsight. La possibilité de connecter Excel à l’entrepôt de données Hive d’un cluster Hadoop en est un exemple. Procédez à une connexion à l’aide du pilote Microsoft Hive Open Database Connectivity (ODBC).

Vous pouvez connecter les données associées à un cluster HDInsight depuis Excel avec le complément Microsoft Power Query pour Excel. Pour plus d’informations, consultez Connexion d’Excel à HDInsight à l'aide de Power Query.

Prérequis

Avant de commencer cet article, vous devez disposer des éléments suivants :

  • Un cluster HDInsight Hadoop. Pour en créer un, consultez Prise en main d’Azure HDInsight.
  • Une station de travail avec Office Professionnel Plus 2010 ou version ultérieure, ou avec Excel 2010 ou version ultérieure.

Installation du pilote ODBC Microsoft Hive

Téléchargez et installez le pilote ODBC Microsoft Hive. Choisissez la version correspondant à celle de l'application où vous utiliserez le pilote ODBC. Pour les besoins de cet article, le pilote concerne Office Excel.

Créer une source de données ODBC Apache Hive

La procédure suivante explique comment créer une source de données ODBC Hive.

  1. Dans Windows, accédez à Démarrer > Outils d’administration Windows > Sources de données ODBC (32 bits)/(64 bits). Cette action ouvre la fenêtre Administrateur de sources de données ODBC.

    OBDC data source administrator.

  2. Dans l’onglet DSN utilisateur, sélectionnez Ajouter pour ouvrir la fenêtre Créer une nouvelle source de données.

  3. Sélectionnez Pilote ODBC Microsoft Hive, puis Terminer pour ouvrir la fenêtre Microsoft Hive ODBC Driver DSN Setup (Configuration du DSN du pilote ODBC Microsoft Hive).

  4. Tapez ou sélectionnez les valeurs suivantes :

    Propriété Description
    Nom de la source de données Donnez un nom à votre source de données
    Host(s) (Hôte(s)) Entrez HDInsightClusterName.azurehdinsight.net. Par exemple : myHDICluster.azurehdinsight.net. Remarque : HDInsightClusterName-int.azurehdinsight.net est pris en charge tant que la machine virtuelle cliente est appairée au même réseau virtuel.
    Port Utilisez 443. (ce port est passé de 563 à 443).
    Base de données Utilisez Default.
    Mechanism Sélectionnez Windows Azure HDInsight Service.
    User Name Entrez le nom de l’utilisateur HTTP du cluster HDInsight. Le nom d’utilisateur par défaut est admin.
    Mot de passe Entrez le mot de passe du cluster HDInsight. Cochez la case Enregistrer le mot de passe (chiffré).
  5. Facultatif : sélectionnez Options avancées...

    Paramètre Description
    Use Native Query Une fois sélectionné, le pilote ODBC ne tente PAS de convertir TSQL en HiveQL. À utiliser uniquement si vous êtes sûr à 100 % que vous envoyez des instructions HiveQL pures. Si vous effectuez une connexion à SQL Server ou Azure SQL Database, ne sélectionnez pas cette option.
    Rows fetched per block Lors de l’extraction d’un grand nombre d’enregistrements, la définition de ce paramètre peut être nécessaire pour garantir des performances optimales.
    Default string column length, Binary column length, Decimal column scale Les précisions et longueurs des types de données peuvent affecter la façon dont les données sont renvoyées. Elles entraînent le renvoi d’informations incorrectes en raison d’une perte de précision et/ou de troncations.

    Advanced DSN configuration options.

  6. Sélectionnez Tester pour tester la source de données. Une fois la source de données correctement configurée, le message suivant apparaît SUCCESS! .

  7. Sélectionnez OK pour fermer la fenêtre de test.

  8. Sélectionnez OK pour fermer la fenêtre Microsoft Hive ODBC Driver DSN Setup (Configuration du DSN du pilote ODBC Microsoft Hive).

  9. Sélectionnez OK pour fermer la fenêtre Administrateur de sources de données ODBC.

Importation de données dans Microsoft Excel à partir de HDInsight

Les étapes ci-dessous décrivent comment importer des données d’une table Hive dans un classeur Excel à l’aide de la source de données ODBC que vous avez créée dans la section précédente.

  1. Ouvrez un nouveau classeur ou un classeur existant dans Excel.

  2. À partir de l’onglet Données, accédez à Obtenir des données>Depuis d’autres sources>Depuis ODBC afin de lancer la fenêtre Depuis ODBC.

    Open Excel data connection wizard.

  3. Dans la liste déroulante, sélectionnez le nom de la source de données que vous avez créée dans la dernière section, puis sélectionnez OK.

  4. Lors de la première utilisation, une boîte de dialogue Pilote ODBC s’ouvre. Dans le menu gauche, sélectionnez Windows. Sélectionnez ensuite Se connecter pour ouvrir la fenêtre Navigateur.

  5. Dans la fenêtre Navigateur, accédez à HIVE>default>hivesampletable, puis sélectionnez Charger. Patientez quelques instants pour que les données soient importées dans Excel.

    HDInsight Excel Hive ODBC navigator.

Étapes suivantes

Dans cet article, vous avez appris à utiliser le pilote ODBC Microsoft Hive pour extraire des données du service HDInsight dans Excel. De la même façon, vous pouvez extraire les données du service HDInsight dans la base de données SQL. Il est également possible de télécharger des données dans un service HDInsight. Pour plus d'informations, consultez les rubriques suivantes :