Usare le visualizzazioni di Ambari per il debug di processi Tez in HDInsight

L'interfaccia utente Web di Ambari per HDInsight contiene una visualizzazione Tez che può essere usata per la comprensione e il debug di processi che usano Tez. La visualizzazione Tez consente di visualizzare il processo come grafico di elementi connessi, esaminare ogni elemento e recuperare statistiche e informazioni sulla registrazione.

Importante

I passaggi descritti in questo documento richiedono un cluster HDInsight che usa Linux. Linux è l'unico sistema operativo usato in HDInsight versione 3.4 o successiva. Per altre informazioni, vedere Componenti e versioni di Hadoop disponibili in HDInsight.

Prerequisiti

Informazioni su Tez

Tez è un framework estendibile per l'elaborazione dati in Hadoop, che garantisce una maggiore velocità rispetto alla tradizionale elaborazione di MapReduce. Per i cluster HDInsight basati su Linux si tratta del motore predefinito per Hive.

Tez crea un grafo aciclico diretto (DAG) che descrive l'ordine delle azioni necessarie per i processi. Le singole azioni sono chiamate vertici ed eseguono una parte dell'intero processo. L'esecuzione vera e propria del lavoro descritta da un vertice è chiamata attività e può essere distribuita in più nodi nel cluster.

Informazioni sulla visualizzazione Tez

La visualizzazione Tez fornisce informazioni sulla cronologia e sui processi in esecuzione. Queste informazioni mostrano in che modo un processo viene distribuito tra i cluster. Visualizza anche i contatori usati da attività e vertici e le informazioni sull'errore relazionato al processo. Può offrire informazioni utili negli scenari seguenti:

  • Monitoraggio di processi con esecuzione prolungata, visualizzazione dello stato delle attività di mapping e riduzione.
  • Analisi dei dati cronologici per i processi riusciti o non riusciti per capire come migliorare l'elaborazione o perché non è riuscita.

Generare un DAG

La visualizzazione Tez contiene dati solo se un processo che usa il motore Tez è attualmente in esecuzione o è stato eseguito precedentemente. Le query Hive semplici possono essere risolte senza usare Tez. Query più complesse che eseguono filtraggio, raggruppamento, ordinamento, unione e così via. Usare il motore Tez.

Usare la procedura seguente per eseguire una query Hive che usa Tez:

  1. In un Web browser passare a https://NOMECLUSTER.azurehdinsight.net, dove NOMECLUSTER è il nome del cluster HDInsight.

  2. Dal menu nella parte superiore della pagina selezionare l'icona delle visualizzazioni. La presente icona ha l'aspetto di una serie di quadrati. Nell'elenco a discesa visualizzato, selezionare Hive View (Visualizzazione Hive).

    Selezione della visualizzazione Hive

  3. Quando viene caricata la visualizzazione Hive, incollare la query seguente nell'editor di query e quindi fare clic su execute (esegui).

     select market, state, country from hivesampletable where deviceplatform='Android' group by market, country, state;
    

    Al termine del processo, l'output verrà visualizzato nella sezione Query Process Results (Risultati elaborazione query). I risultati dovrebbero essere simili al testo seguente:

     market  state       country
     en-GB   Hessen      Germany
     en-GB   Kingston    Jamaica
    
  4. Selezionare la scheda Log. Vengono restituite informazioni simili al seguente testo:

     INFO : Session is already open
     INFO :
    
     INFO : Status: Running (Executing on YARN cluster with App id application_1454546500517_0063)
    

    Salvare il valore App id, poiché tale valore viene usato nella sezione successiva.

Usare la visualizzazione Tez

  1. Dal menu nella parte superiore della pagina selezionare l'icona delle visualizzazioni. Nell'elenco a discesa visualizzato selezionare Tez View (Visualizzazione Tez).

    Selezione della visualizzazione Tez

  2. Quando la visualizzazione Tez viene caricata, viene visualizzato un elenco di query Hive che sono attualmente in esecuzione o che sono stati eseguiti nel cluster.

    Tutti i DAG

  3. Se è presente una sola voce, è quella relativa alla query eseguita nella sezione precedente. Se si dispone di più voci, è possibile eseguire una ricerca con i campi nella parte superiore della pagina.

  4. Selezionare il ID Query per una query Hive. Verranno visualizzate informazioni sulla query.

    DAG Details

  5. Le schede in questa pagina consentono di visualizzare le informazioni seguenti:

    • Informazioni sulla query: informazioni dettagliate sulla query Hive.
    • Tempistiche: informazioni sulla durata di ogni fase dell'elaborazione.
    • Configurazioni: la configurazione usata per questa query.

      Da Dettagli query è possibile usare i collegamenti per trovare le informazioni sull'applicazione o il DAG per questa query.

    • Il collegamento Applicazione consente di visualizzare informazioni sull'applicazione YARN per questa query. Da qui è possibile accedere ai registri dell'applicazione YARN.

    • Il collegamento DAG consente di visualizzare le informazioni su un grafo aciclico diretto per questa query. Da qui è possibile visualizzare una rappresentazione grafica del DAG. È anche possibile trovare informazioni sui vertici all'interno del DAG.

Passaggi successivi

A questo punto, dopo avere appreso come usare la visualizzazione Tez, è possibile trovare altre informazioni in Uso di Hive in HDInsight.

Per informazioni tecniche più dettagliate su Tez, vedere la pagina di Tez in Hortonworks.

Per altre informazioni sull'uso di Ambari con HDInsight, vedere Gestire i cluster HDInsight usando l'interfaccia utente Web di Ambari