Connettere Excel ad Apache Hadoop in HDInsight mediante Microsoft Hive ODBC Driver

La soluzione Big Data di Microsoft integra i componenti di Microsoft Business Intelligence (BI) con i cluster Apache Hadoop distribuiti in HDInsight. Un esempio è la possibilità di connettere Excel al data warehouse Hive di un cluster Hadoop. Connessione usando il driver Odbc (Open Database Connessione) Di Microsoft Hive.

È possibile connettere i dati associati a un cluster HDInsight da Excel con il componente aggiuntivo Microsoft Power Query per Excel. Per altre informazioni, vedere Connessione Excel in HDInsight con Power Query.

Prerequisiti

Per eseguire le procedure descritte nell'articolo sono necessari gli elementi seguenti:

  • Un cluster in HDInsight Hadoop. Per crearne uno, vedere Introduzione all'uso di Hadoop in HDInsight.
  • Una workstation con Office 2010 Professional Plus o versione successiva oppure Excel 2010 o versione successiva.

Installare Microsoft Hive ODBC driver

Scaricare e installare Microsoft Hive ODBC Driver. Scegliere la versione corrispondente alla versione dell'applicazione in cui si userà il driver ODBC. Per questo articolo, il driver viene usato per Office Excel.

Creare un'origine dati Apache Hive ODBC

I passaggi seguenti mostrano come creare un'origine dati Hive ODBC.

  1. Da Windows passare a Start > Windows Amministrazione istrative Tools > ODBC Data Sources (32-bit)/(64-bit). Questa azione apre la finestra origine dati ODBC Amministrazione istrator.

    OBDC data source administrator.

  2. Nella scheda DSN utente selezionare Aggiungi per aprire la finestra Crea nuova origine dati.

  3. Selezionare Microsoft Hive ODBC Driver e quindi selezionare Fine per aprire la finestra di configurazione del DSN per Microsoft Hive ODBC Driver.

  4. Digitare o selezionare i valori seguenti:

    Proprietà Descrizione
    Nome origine dati Assegnare un nome all'origine dati
    Host Immetti HDInsightClusterName.azurehdinsight.net. Ad esempio: myHDICluster.azurehdinsight.net. Nota: HDInsightClusterName-int.azurehdinsight.net è supportato purché la macchina virtuale client sia con peering alla stessa rete virtuale.
    Port Utilizzare 443. Questa porta è passata da 563 a 443.
    Database Usare l'impostazione predefinita.
    Meccanismo Selezionare Servizio HDInsight di Microsoft Azure
    Nome utente Immettere il nome utente HTTP del cluster HDInsight. Il nome utente predefinito è admin.
    Password Immettere la password utente del cluster HDInsight. Selezionare la casella di controllo Save Password (Encrypted) (Salva password (crittografata)).
  5. Facoltativo: selezionare Opzioni avanzate...

    Parametro Descrizione
    Use Native Query Quando è selezionato, il driver ODBC NON cerca di convertire TSQL in HiveQL. Verrà usata solo se si è sicuri di inviare istruzioni HiveQL pure al 100%. Quando ci si connette al database SQL di Azure o SQL Server, è consigliabile lasciarlo deselezionato.
    Rows fetched per block Quando si recupera un numero elevato di record, potrebbe essere necessario ottimizzare questo parametro per assicurare prestazioni ottimali.
    Default string column length, Binary column length, Decimal column scale Le lunghezze e le precisioni del tipo di dati potrebbero avere effetto sulla visualizzazione dei dati. Causano la restituzione di informazioni non corrette a causa della perdita di precisione e o troncamento.

    Advanced DSN configuration options.

  6. Selezionare Test per testare l'origine dati. Quando l'origine dati è configurata correttamente, il risultato del test mostra SUCCESS!

  7. Selezionare OK per chiudere la finestra Test.

  8. Selezionare OK per chiudere la finestra di configurazione del DSN per Microsoft Hive ODBC Driver.

  9. Selezionare OK per chiudere la finestra Amministratore origine dati ODBC.

Importazione di dati in Excel da HDInsight

La procedura seguente descrive come importare dati da una tabella Hive in una cartella di lavoro di Excel usando l'origine dati ODBC creata nella sezione precedente.

  1. Aprire una cartella di lavoro nuova o esistente in Excel.

  2. Nella scheda Dati passare a Carica dati>Da altre origini>Da ODBC per aprire la finestra Da ODBC.

    Open Excel data connection wizard.

  3. Nell'elenco a discesa selezionare il nome dell'origine dati creato nell'ultima sezione e quindi selezionare OK.

  4. Per il primo utilizzo, verrà aperta una finestra di dialogo del driver ODBC. Selezionare Windows dal menu a sinistra. Selezionare quindi Connessione per aprire la finestra Strumento di navigazione.

  5. In Strumento di spostamento passare a HIVE>default>hivesampletable e quindi selezionare Carica. L'importazione dei dati in Excel potrebbe richiedere alcuni istanti.

    HDInsight Excel Hive ODBC navigator.

Passaggi successivi

In questo articolo è stato illustrato come usare Microsoft Hive ODBC Driver per recuperare dati dal servizio HDInsight in Excel. È analogamente possibile recuperare dati dal servizio HDInsight nel database SQL. È anche possibile caricare dati in un servizio HDInsight. Per altre informazioni, vedere: