Utilisation de MapReduce avec Apache Hadoop sur HDInsight avec SSH

Article
09/27/2023

Découvrez comment soumettre des tâches MapReduce à partir d’une connexion SSH (Secure Shell) vers HDInsight.

Notes

Si vous connaissez déjà l’utilisation de serveurs Apache Hadoop basés sur Linux, mais pas HDInsight, consultez la rubrique Informations sur l’utilisation de HDInsight sur Linux.

Prérequis

Un cluster Apache Hadoop sur HDInsight. Consultez Créer des clusters Apache Hadoop à l’aide du Portail Azure.

Utilisation de commandes Hadoop

Utilisez la commande ssh pour vous connecter à votre cluster. Modifiez la commande ci-dessous en remplaçant CLUSTERNAME par le nom de votre cluster, puis entrez la commande :
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Une fois connecté au cluster HDInsight, utilisez la commande suivante pour lancer une tâche MapReduce :
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Cette commande démarre la classe wordcount, qui est contenue dans le fichier hadoop-mapreduce-examples.jar. Il utilise le document /example/data/gutenberg/davinci.txt comme entrée. La sortie est stockée dans /example/data/WordCountOutput.

Notes

Pour plus d’informations sur ce travail MapReduce et pour des exemples de données, consultez Utiliser MapReduce dans Apache Hadoop sur HDInsight.

La tâche émet des informations lors de son traitement, avant de renvoyer des informations semblables au texte suivant lorsqu’elle est terminée :
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Une fois la tâche terminée, utilisez la commande suivante pour afficher les fichiers sortants :
```
hdfs dfs -ls /example/data/WordCountOutput
```
Cette commande affiche deux fichiers, _SUCCESS et part-r-00000. Le fichier part-r-00000 contient le résultat pour cette tâche.

Notes

Certaines tâches MapReduce peuvent fractionner les résultats sur plusieurs fichiers part-r-##### . Dans ce cas, utilisez le suffixe ##### pour indiquer l’ordre des fichiers.
Pour afficher la sortie, utilisez la commande suivante :
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Cette commande affiche une liste des mots contenus dans le fichier wasb://example/data/gutenberg/davinci.txt, ainsi que le nombre d’occurrences de chaque mot. Le texte suivant est un exemple des données contenues dans le fichier :
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Étapes suivantes

Comme vous pouvez le voir, les commandes Hadoop fournissent un moyen facile pour exécuter des tâches MapReduce sur un cluster HDInsight avant d’afficher le résultat de la tâche. Pour plus d’informations sur d’autres méthodes de travail avec Hadoop sur HDInsight :

Utilisation de MapReduce avec Apache Hadoop sur HDInsight avec SSH

Prérequis

Utilisation de commandes Hadoop

Étapes suivantes

Ressources supplémentaires