Gunakan MapReduce dengan Apache Hadoop di HDInsight dengan SSH

Artikel
09/27/2023

Pelajari cara mengirimkan pekerjaan MapReduce dari koneksi Secure Shell (SSH) ke HDInsight.

Catatan

Jika Anda sudah terbiasa menggunakan server Apache Hadoop berbasis Linux, tetapi Anda baru mengenal HDInsight, lihat tips HDInsight berbasis Linux.

Prasyarat

Kluster Apache Hadoop di Microsoft Azure HDInsight. Lihat Membuat kluster Apache Hadoop menggunakan portal Microsoft Azure.

Gunakan perintah Hadoop

Gunakan perintah ssh untuk menyambungkan ke kluster Anda. Edit perintah di bawah ini dengan mengganti CLUSTERNAME dengan nama kluster Anda, lalu masukkan perintah:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Setelah Anda tersambung ke kluster HDInsight, gunakan perintah berikut untuk memulai pekerjaan MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Perintah ini memulai kelas wordcount, yang terkandung dalam file hadoop-mapreduce-examples.jar. Ini menggunakan dokumen /example/data/gutenberg/davinci.txt sebagai input, dan output disimpan di /example/data/WordCountOutput.

Catatan

Untuk informasi selengkapnya tentang pekerjaan MapReduce ini dan data contohnya, lihat Menggunakan MapReduce di Apache Hadoop di HDInsight.

Pekerjaan memancarkan detail saat memproses, dan mengembalikan informasi yang mirip dengan teks berikut ketika pekerjaan selesai:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Ketika pekerjaan selesai, gunakan perintah berikut untuk mencantumkan file output:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Perintah ini menampilkan dua file, _SUCCESS dan part-r-00000. File part-r-00000 ini memuat output untuk tugas ini.

Catatan

Beberapa pekerjaan MapReduce dapat membagi hasil di beberapa file part-r-##### . Jika demikian, gunakan akhiran ##### untuk menunjukkan urutan file.
Untuk melihat output, gunakan perintah berikut:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Perintah ini menampilkan daftar kata-kata yang terkandung dalam file wasbs://example/data/gutenberg/davinci.txt dan berapa kali setiap kata terjadi. Teks berikut adalah contoh data dalam file:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Langkah berikutnya

Seperti yang Anda lihat, perintah Hadoop memberikan cara mudah untuk menjalankan pekerjaan MapReduce di kluster HDInsight dan kemudian melihat output pekerjaan. Untuk informasi tentang cara lain Anda dapat bekerja dengan Hadoop di Microsoft Azure HDInsight:

Gunakan MapReduce dengan Apache Hadoop di HDInsight dengan SSH

Prasyarat

Gunakan perintah Hadoop

Langkah berikutnya

Sumber Daya Tambahan: