Azure Data Factory 또는 Synapse Analytics에서 Hadoop 스트리밍 작업을 사용하여 데이터 변환

아티클
02/13/2024

적용 대상: Azure Data Factory Azure Synapse Analytics

팁

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Azure Data Factory 또는 Synapse Analytics 파이프라인의 HDInsight 스트리밍 작업은 자체 또는 주문형 HDInsight 클러스터에서 Hadoop 스트리밍 프로그램을 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

자세히 알아보려면 이 문서를 읽기 전에 Azure Data Factory 및 Synapse Analytics 소개 문서를 읽고 자습서: 데이터 변환을 수행합니다.

UI를 사용하여 파이프라인에 HDInsight 스트리밍 작업 추가

HDInsight 스트리밍 작업을 파이프라인에 사용하려면 다음 단계를 완료합니다.

파이프라인 작업 창에서 스트리밍을 검색하고 스트리밍 작업을 파이프라인 캔버스로 드래그합니다.
아직 선택하지 않은 경우 캔버스에서 새 스트리밍 작업을 선택합니다.
스트리밍 작업을 실행하는 데 사용할 HDInsight 클러스터에 대한 새 연결된 서비스를 선택하거나 만들려면 HDI 클러스터 탭을 선택합니다.
파일 탭을 선택하여 스트리밍 작업의 매퍼 및 Reducer 이름을 지정하고 작업에 대한 매퍼, Reducer, 입출력 파일을 만들 Azure Storage 계정에 대한 새 연결된 서비스를 선택하거나 만듭니다. 디버깅 구성, 인수 및 작업에 전달할 매개 변수를 비롯한 고급 세부 정보를 구성할 수도 있습니다.

JSON 샘플

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

구문 세부 정보

속성	설명	필수
name	작업의 이름	예
description	작업이 무엇에 사용되는지 설명하는 텍스트입니다.	아니요
type	Hadoop 스트리밍 작업의 경우 작업 유형은 HDInsightStreaming입니다.	예
linkedServiceName	연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.	예
mapper	mapper 실행 파일의 이름을 지정합니다.	예
reducer	reducer 실행 파일의 이름을 지정합니다.	예
combiner	combiner 실행 파일의 이름을 지정합니다.	아니요
fileLinkedService	실행할 Mapper, Combiner 및 Reducer 프로그램을 저장하는 데 사용되는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기서는 Azure Blob Storage 및 ADLS Gen2 연결 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다.	아니요
filePath	fileLinkedService에서 참조하는 Azure Storage에 저장된 Mapper, Combiner 및 Reducer 프로그램의 경로 배열을 제공합니다. 경로는 대/소문자를 구분합니다.	예
input	Mapper에 대한 입력 파일의 WASB 경로를 지정합니다.	예
output	Reducer에 대한 출력 파일의 WASB 경로를 지정합니다.	예
getDebugInfo	scriptLinkedService에 지정되었거나 HDInsight 클러스터에 사용된 Azure Storage에 로그 파일을 언제 복사할지 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다.	아니요
arguments	Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다.	아니요
defines	Hive 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다.	아니요

다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.

Azure Data Factory 또는 Synapse Analytics에서 Hadoop 스트리밍 작업을 사용하여 데이터 변환

UI를 사용하여 파이프라인에 HDInsight 스트리밍 작업 추가

JSON 샘플

구문 세부 정보

관련 콘텐츠

추가 리소스