Connettere Excel a Hadoop in HDInsight mediante Microsoft Hive ODBC Driver

La soluzione Microsoft per Big Data integra componenti di Microsoft Business Intelligence (BI) con i cluster Apache Hadoop sviluppati da Azure HDInsight. Un esempio di questa integrazione è la possibilità di connettere Excel al data warehouse Hive di un cluster Hadoop in HDInsight mediante il driver Microsoft Hive Open Database Connectivity (ODBC).

È inoltre possibile connettere i dati associati a un cluster HDInsight e ad altre origini dati, inclusi altri cluster Hadoop (non HDInsight), da Excel mediante il componente aggiuntivo Microsoft Power Query per Excel. Per informazioni sull'installazione e l'uso di Power Query, vedere l'articolo su come connettere Excel a HDInsight mediante Power Query.

Nota

Mentre i passaggi descritti in questo articolo possono essere utilizzati con un cluster HDInsight basato su Windows o Linux, Windows è necessario per la workstation client.

Prerequisiti:

Per eseguire le procedure descritte nell'articolo sono necessari gli elementi seguenti:

  • Un cluster HDInsight. Per crearne uno, vedere l'introduzione ad Azure HDInsight.
  • Una workstation con Office 2013 Professional Plus, Office 365 Pro Plus, Excel 2013 Standalone oppure Office 2010 Professional Plus.

Installare Microsoft Hive ODBC driver

Scaricare e installare Microsoft Hive ODBC Driver dall'Area download.

Questo driver può essere installato nelle versioni a 32 bit o 64 bit di Windows 7, Windows 8, Windows 10, Windows Server 2008 R2 e Windows Server 2012. Il driver consente la connessione ad Azure HDInsight (versione 1.6 e successive) e Azure HDInsight Emulator (versione 1.0.0.0 e successive). È consigliabile installare la versione corrispondente alla versione dell'applicazione in cui si userà il driver ODBC. Per questa esercitazione, il driver verrà usato da Office Excel.

Creare un'origine dati Hive ODBC

I passaggi seguenti mostrano come creare un'origine dati Hive ODBC.

  1. In Windows 8 o Windows 10, premere il tasto Windows per aprire la schermata Start e quindi digitare data sources.
  2. Fare clic su Configura origini dati ODBC (32 bit) o Configura origini dati ODBC (64 bit) a seconda della versione di Office. Se si usa Windows 7, scegliere Configura origini dati ODBC (32 bit) o Configura origini dati ODBC (64 bit) da Strumenti di amministrazione. Verrà aperta la finestra di dialogo Amministrazione origine dati ODBC.

    Amministrazione origine dati ODBC

  3. Nel DNS utente fare clic su Aggiungi per aprire la procedura guidata Crea nuova origine dati.

  4. Selezionare Microsoft Hive ODBC Driver e quindi fare clic su Fine. Verrà aperta la finestra di dialogo Microsoft Hive ODBC Driver DNS Setup (Configurazione DNS Microsoft Hive ODBC Driver).
  5. Digitare o selezionare i valori seguenti:

    Proprietà Descrizione
    Data Source Name Assegnare un nome all'origine dati
    Host Immettere <HDInsightClusterName>.azurehdinsight.net. Ad esempio, myHDICluster.azurehdinsight.net
    Porta Utilizzare 443. Questa porta è passata da 563 a 443.
    Database Usare l'impostazione predefinita.
    Hive Server Type Selezionare Hive Server 2
    Mechanism Selezionare Azure HDInsight Service
    HTTP Path Lasciare vuoto.
    User Name Immettere il nome utente HTTP del cluster HDInsight. Il nome utente predefinito è admin.
    Password Immettere la password utente del cluster HDInsight.

    Esistono alcuni importanti parametri a cui prestare attenzione quando si fa clic su Advanced Options:

    Parametro Descrizione
    Use Native Query Quando viene selezionato, il driver ODBC NON cercherà di convertire TSQL in HiveQL. Deve essere usato solo se si è assolutamente certi di inviare istruzioni HiveQL pure. Quando ci si connette al database SQL Server o SQL di Azure, è consigliabile lasciarlo deselezionato.
    Rows fetched per block Quando si recupera un numero elevato di record, potrebbe essere necessario ottimizzare questo parametro per assicurare prestazioni ottimali.
    Default string column length, Binary column length, Decimal column scale Le lunghezze e le precisioni del tipo di dati potrebbero avere effetto sulla visualizzazione dei dati. In questo caso verranno restituite informazioni non corrette a causa della perdita di precisione e/o ai troncamenti.

    Opzioni avanzate

  6. Fare clic su Test per testare l'origine dati. Quando l'origine dati è configurata correttamente, viene visualizzato TESTS COMPLETED SUCCESSFULLY!

  7. Fare clic su OK per chiudere la finestra di dialogo Test. La nuova origine dati sarà ora elencata in Amministrazione origine dati ODBC.
  8. Fare clic su OK per chiudere la procedura guidata.

Importazione di dati in Excel da HDInsight

I passaggi seguenti descrivono come importare dati da una tabella Hive in una cartella di lavoro di Excel usando l'origine dati ODBC creata nei passaggi precedenti.

  1. Aprire una cartella di lavoro nuova o esistente in Excel.
  2. Nella scheda Dati fare clic su From Other Data Sources (Da altre origini dati) e quindi su From Data Connection Wizard (Da Connessione guidata dati) per avviare la Connessione guidata dati.

    Aprire la Connessione guidata dati

  3. Selezionare Nome origine dati ODBC DSN come origine dati e quindi fare clic su Avanti.
  4. Nelle origini dati ODBC selezionare il nome dell'origine dati creato nel passaggio precedente e quindi fare clic su Avanti.
  5. Immettere nuovamente la password per il cluster nella procedura guidata e quindi fare clic su Test per verificare di nuovo la configurazione.
  6. Fare clic su OK per chiudere la finestra di dialogo Test.
  7. Fare clic su OK. Attendere l'apertura della finestra di dialogo Seleziona database e tabella . Questo passaggio potrebbe richiedere alcuni secondi.
  8. Selezionare la tabella che si desidera importare e quindi fare clic su Avanti. hivesampletable è una tabella hive di esempio disponibile con i cluster HDInsight. È possibile sceglierla se non ne è stata creata una. Per altre informazioni sull'esecuzione di query Hive e sulla creazione di tabelle Hive, vedere l'articolo su come usare Hive con HDInsight.
  9. Fare clic su Fine.
  10. Nella finestra di dialogo Importa dati è possibile modificare o specificare la query. A questo scopo, fare clic su Proprietà. Questo passaggio potrebbe richiedere alcuni secondi.
  11. Fare clic sulla scheda Definizione e quindi aggiungere LIMIT 200 all'istruzione di selezione Hive nella casella Testo comando. La modifica limita a 200 il set di record restituiti.

    Proprietà di connessione

  12. Fare clic su OK per chiudere la finestra di dialogo Proprietà connessione.
  13. Fare clic su OK per chiudere la finestra di dialogo Importa dati.
  14. Immettere nuovamente la password e quindi fare clic su OK. L'importazione dei dati in Excel potrebbe richiedere alcuni secondi.

Passaggi successivi

In questo articolo è stato illustrato come usare Microsoft Hive ODBC Driver per recuperare dati dal servizio HDInsight in Excel. È analogamente possibile recuperare dati dal servizio HDInsight nel database SQL. È inoltre possibile caricare dati in un servizio HDInsight. Per altre informazioni, vedere: