Uso de MapReduce con Apache Hadoop en HDInsight con SSH

Artículo
09/27/2023

Aprenda a enviar trabajos de MapReduce desde una conexión Secure Shell (SSH) a HDInsight.

Nota

Si ya está familiarizado con el uso de servidores de Apache Hadoop basados en Linux, pero no conoce HDInsight, consulte Información sobre el uso de HDInsight en Linux.

Requisitos previos

Un clúster de Apache Hadoop en HDInsight. Consulte Creación de clústeres de Apache Hadoop mediante Azure Portal.

Uso de comandos de Hadoop

Use el comando SSH para conectarse al clúster. Modifique el comando siguiente: reemplace CLUSTERNAME por el nombre del clúster y, luego, escriba el comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Después de conectarse al clúster de HDInsight, use el siguiente comando para iniciar un trabajo de MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Este comando inicia la clase wordcount, que está contenido en el archivo hadoop-mapreduce-examples.jar. Emplea como entrada el documento /example/data/gutenberg/davinci.txt y la salida se almacena en /example/data/WordCountOutput.

Nota

Para obtener más información sobre este trabajo de MapReduce y los datos de ejemplo, vea Uso de MapReduce en Apache Hadoop en HDInsight.

El trabajo emite detalles a medida que se procesa y devuelve información similar al siguiente texto cuando finaliza el trabajo:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Una vez completado el trabajo, use el siguiente comando para enumerar los archivos de salida:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Este comando muestra dos archivos, _SUCCESS y part-r-00000. El archivo part-r-00000 contiene la salida de este trabajo.

Nota

Algunos trabajos de MapReduce pueden dividir los resultados entre varios archivos part-r-#### . Si es así, utilice el sufijo #### para indicar el orden de los archivos.
Para ver la salida, use el comando siguiente:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Este comando muestra una lista de las palabras contenidas en el archivo wasb://example/data/gutenberg/davinci.txt, junto con el número de veces que aparecía cada palabra. El texto siguiente es un ejemplo de los datos contenidos en el archivo:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Pasos siguientes

Como se puede ver, los comando Hadoop proporcionan una manera fácil de ejecutar trabajos de MapReduce en un clúster de HDInsight y, a continuación, ver la salida del trabajo. Para obtener información sobre otras maneras de trabajar con Hadoop en HDInsight:

Uso de MapReduce con Apache Hadoop en HDInsight con SSH

Requisitos previos

Uso de comandos de Hadoop

Pasos siguientes

Recursos adicionales