Gunakan MapReduce dengan Apache Hadoop di HDInsight dengan SSH

Pelajari cara mengirimkan pekerjaan MapReduce dari koneksi Secure Shell (SSH) ke HDInsight.

Catatan

Jika Anda sudah terbiasa menggunakan server Apache Hadoop berbasis Linux, tetapi Anda baru mengenal HDInsight, lihat tips HDInsight berbasis Linux.

Prasyarat

Kluster Apache Hadoop di Microsoft Azure HDInsight. Lihat Membuat kluster Apache Hadoop menggunakan portal Microsoft Azure.

Gunakan perintah Hadoop

  1. Gunakan perintah ssh untuk menyambungkan ke kluster Anda. Edit perintah di bawah ini dengan mengganti CLUSTERNAME dengan nama kluster Anda, lalu masukkan perintah:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Setelah Anda tersambung ke kluster HDInsight, gunakan perintah berikut untuk memulai pekerjaan MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Perintah ini memulai kelas wordcount, yang terkandung dalam file hadoop-mapreduce-examples.jar. Ini menggunakan dokumen /example/data/gutenberg/davinci.txt sebagai input, dan output disimpan di /example/data/WordCountOutput.

    Catatan

    Untuk informasi selengkapnya tentang pekerjaan MapReduce ini dan data contohnya, lihat Menggunakan MapReduce di Apache Hadoop di HDInsight.

    Pekerjaan memancarkan detail saat memproses, dan mengembalikan informasi yang mirip dengan teks berikut ketika pekerjaan selesai:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Ketika pekerjaan selesai, gunakan perintah berikut untuk mencantumkan file output:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Perintah ini menampilkan dua file, _SUCCESS dan part-r-00000. File part-r-00000 ini memuat output untuk tugas ini.

    Catatan

    Beberapa pekerjaan MapReduce dapat membagi hasil di beberapa file part-r-##### . Jika demikian, gunakan akhiran ##### untuk menunjukkan urutan file.

  4. Untuk melihat output, gunakan perintah berikut:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Perintah ini menampilkan daftar kata-kata yang terkandung dalam file wasbs://example/data/gutenberg/davinci.txt dan berapa kali setiap kata terjadi. Teks berikut adalah contoh data dalam file:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Langkah berikutnya

Seperti yang Anda lihat, perintah Hadoop memberikan cara mudah untuk menjalankan pekerjaan MapReduce di kluster HDInsight dan kemudian melihat output pekerjaan. Untuk informasi tentang cara lain Anda dapat bekerja dengan Hadoop di Microsoft Azure HDInsight: