Usare MapReduce con Apache Hadoop in HDInsight con SSH

Informazioni su come inviare processi MapReduce da una connessione Secure Shell (SSH) a HDInsight.

Nota

Se si ha già familiarità con l'uso di server Apache Hadoop basati su Linux ma non si è esperti di HDInsight, vedere Informazioni sull'uso di HDInsight in Linux.

Prerequisiti

Un cluster Apache Hadoop in HDInsight. Vedere Creare i cluster di Apache Hadoop nel portale di Azure.

Usare i comandi Hadoop

  1. Usare il comando ssh per connettersi al cluster. Modificare il comando seguente sostituendo CLUSTERNAME con il nome del cluster in uso e quindi immettere il comando:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Dopo essersi connessi al cluster HDInsight, usare il comando seguente per avviare un processo MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Questo comando avvia la classe wordcount, contenuta nel file hadoop-mapreduce-examples.jar. Usa il documento /example/data/gutenberg/davinci.txt come input, mentre l'output viene archiviato in /example/data/WordCountOutput.

    Nota

    Per altre informazioni su questo processo MapReduce e per i dati di esempio, vedere Usare MapReduce in Apache Hadoop in HDInsight.

    Il processo genera dettagli durante l'elaborazione e, al termine, restituisce informazioni simili alle seguenti:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Al termine del processo, usare il comando seguente per elencare i file di output:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Con questo comando vengono visualizzati due file: _SUCCESS e part-r-00000. Il file part-r-00000 contiene l'output del processo.

    Nota

    Alcuni processi MapReduce possono dividere i risultati in più file part-r-##### . In questo caso, usare il suffisso ##### per indicare l'ordine dei file.

  4. Per visualizzare l'output, usare il seguente comando:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Viene visualizzato un elenco di parole contenute nel file wasbs://example/data/gutenberg/davinci.txt e il numero di occorrenze di ogni parola. Di seguito è riportato un esempio dei dati contenuti nel file:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Passaggi successivi

Come è possibile notare, i comandi Hadoop forniscono un modo semplice per eseguire processi MapReduce in un cluster HDInsight e visualizzare l'output del processo. Per informazioni su altre modalità d'uso di Hadoop in HDInsight: