SSH를 사용하여 HDInsight에서 Apache Hadoop으로 MapReduce 사용

SSH(Secure Shell) 연결에서 HDInsight로 MapReduce 작업을 제출하는 방법을 알아봅니다.

참고 항목

Linux 기반 Apache Hadoop 서버 사용에 익숙하지만 HDInsight는 생소하다면 Linux 기반 HDInsight 팁을 참조하세요.

필수 조건

HDInsight의 Apache Hadoop 클러스터입니다. Azure Portal을 사용하여 Apache Hadoop 클러스터 만들기를 참조하세요.

Hadoop 명령 사용

  1. ssh 명령을 사용하여 클러스터에 연결합니다. CLUSTERNAME을 클러스터 이름으로 바꿔 아래 명령을 편집한 다음, 명령을 입력합니다.

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. HDInsight 클러스터에 연결한 후 다음 명령을 사용하여 MapReduce 작업을 시작합니다.

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    이 명령은 hadoop-mapreduce-examples.jar 파일에 포함되어 있는 wordcount 클래스를 시작합니다. 문서를 입력으로 사용하고 /example/data/gutenberg/davinci.txt 출력은 에 /example/data/WordCountOutput저장됩니다.

    참고 항목

    이 MapReduce 작업 및 예제 데이터에 대한 자세한 내용은 HDInsight의 Apache Hadoop에서 MapReduce 사용을 참조하세요.

    작업이 처리되는 동안 세부 정보를 내보내며 작업이 완료될 때 다음 텍스트와 유사한 정보를 반환합니다.

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. 작업이 완료되면 다음 명령을 사용하여 출력 파일을 나열합니다.

    hdfs dfs -ls /example/data/WordCountOutput
    

    이 명령은 두 개의 파일 _SUCCESSpart-r-00000. 파일에는 part-r-00000 이 작업에 대한 출력이 포함됩니다.

    참고 항목

    일부 MapReduce 작업은 결과를 여러 파트 r-##### 파일로 분할할 수 있습니다. 그럴 경우 ##### 접미사가 파일의 순서를 나타냅니다.

  4. 출력을 보려면 다음 명령을 사용합니다.

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    이 명령은 wasbs://example/data/gutenberg/davinci.txt 파일에 포함된 단어 목록과 각 단어가 발생한 횟수를 표시합니다. 다음 텍스트는 파일에 포함된 데이터의 예입니다.

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

다음 단계

보듯이 Hadoop 명령은 HDInsight 클러스터에서 MapReduce 작업을 실행한 다음 작업 출력을 볼 수 있는 쉬운 방법을 제공합니다. HDInsight에서 Hadoop으로 작업할 수 있는 다른 방법에 대한 자세한 내용은 다음을 참조하세요.