Synapse Spark 작업 정의를 실행하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

파이프라인의 Azure Synapse Spark 작업 정의 활동은 Azure Synapse Analytics 작업 영역에서 Synapse Spark 작업 정의를 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

Apache Spark 작업 정의 캔버스 설정

파이프라인에서 Synapse에 대한 Spark 작업 정의 활동을 사용하려면 다음 단계를 완료합니다.

일반 설정

  1. 파이프라인 작업 창에서 Spark 작업 정의를 검색하고 Synapse 아래의 Spark 작업 정의 활동을 파이프라인 캔버스로 끕니다.

  2. 아직 선택하지 않은 경우 캔버스에서 새 Spark 작업 정의 활동을 선택합니다.

  3. 일반 탭에서 이름으로 sample을 입력합니다.

  4. (옵션) 설명을 입력할 수도 있습니다.

  5. 시간 제한: 활동을 실행할 수 있는 최대 시간입니다. 기본값은 최대 허용 시간인 7일입니다. 형식은 D.HH:MM:SS입니다.

  6. 재시도: 최대 재시도 횟수입니다.

  7. 재시도 간격: 각 연결 재시도 간의 시간(초)을 지정합니다.

  8. 보안 출력: 선택하면 작업의 출력값이 로깅에서 캡처되지 않습니다.

  9. 보안 입력: 선택하면 작업의 입력값이 로깅에서 캡처되지 않습니다.

Azure Synapse Analytics(아티팩트) 설정

  1. 아직 선택하지 않은 경우 캔버스에서 새 Spark 작업 정의 활동을 선택합니다.

  2. Azure Synapse Analytics(아티팩트) 탭을 선택하여 Spark 작업 정의 활동을 실행할 새 Azure Synapse Analytics 연결된 서비스를 선택하거나 만듭니다.

    Screenshot that shows the UI for the linked service tab for a spark job definition activity.

설정 탭

  1. 아직 선택하지 않은 경우 캔버스에서 새 Spark 작업 정의 활동을 선택합니다.

  2. 설정 탭을 선택합니다.

  3. Spark 작업 정의 목록을 확장하여 연결된 Azure Synapse Analytics 작업 영역에서 기존 Apache Spark 작업 정의를 선택할 수 있습니다.

  4. (선택 사항) Apache Spark 작업 정의에 대한 정보를 입력할 수 있습니다. 다음 설정이 비어 있으면 Spark 작업 정의 자체의 설정이 실행되는 데 사용됩니다. 다음 설정이 비어 있지 않으면 이러한 설정이 스파크 작업 정의 자체의 설정을 대체합니다.

    속성 설명
    주 정의 파일 작업에 사용되는 주 파일입니다. 스토리지에서 PY/JAR/ZIP 파일을 선택합니다. 파일 업로드를 선택하여 스토리지 계정에 파일을 업로드할 수 있습니다.
    샘플: abfss://…/path/to/wordcount.jar
    하위 폴더의 참조 기본 정의 파일의 루트 폴더에서 하위 폴더를 검사하면 이러한 파일이 참조 파일로 추가됩니다. "jars", "pyFiles", "files" 또는 "archives"라는 폴더가 검색되고 폴더 이름은 대/소문자를 구분합니다.
    주 클래스 이름 주 정의 파일에 있는 주 클래스 또는 정규화된 식별자입니다.
    샘플: WordCount
    명령줄 인수 새로 만들기 단추를 클릭하여 명령줄 인수를 추가할 수 있습니다. 명령줄 인수를 추가하면 Spark 작업 정의에 의해 정의된 명령줄 인수가 다시 정의됩니다.
    샘플: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark 풀 목록에서 Apache Spark 풀을 선택할 수 있습니다.
    Python 코드 참조 기본 정의 파일에서 참조에 사용되는 추가 Python 코드 파일입니다.
    파일(.py, .py3, .zip)을 "pyFiles" 속성에 전달할 수 있습니다. Spark 작업 정의에 정의된 "pyFiles" 속성을 재정의합니다.
    참조 파일 주 정의 파일에서 참조용으로 사용되는 추가 파일입니다.
    Apache Spark 풀 목록에서 Apache Spark 풀을 선택할 수 있습니다.
    동적으로 실행기를 할당 이 설정은 Spark 애플리케이션 실행기 할당을 위해 Spark 구성의 동적 할당 속성에 매핑됩니다.
    최소 실행기 작업에 대해 지정된 Spark 풀에 할당할 최소 실행기 수입니다.
    최대 실행기 작업에 대해 지정된 Spark 풀에 할당할 최대 실행기 수입니다.
    드라이버 크기 작업에 대해 지정된 Apache Spark 풀에 제공된 드라이버에 사용할 코어 및 메모리의 수입니다.
    Spark 구성 Spark 구성 - 애플리케이션 속성 항목에 나열된 Spark 구성 속성의 값을 지정합니다. 사용자는 기본 구성 및 사용자 지정된 구성을 사용할 수 있습니다.

    Screenshot that shows the UI for the spark job definition activity.

  5. 동적 콘텐츠 추가 단추를 클릭하거나 바로 가기 키 Alt+Shift+D를 눌러 동적 콘텐츠를 추가할 수 있습니다. 동적 콘텐츠 추가 페이지에서 식, 함수 및 시스템 변수 조합을 사용하여 동적 콘텐츠에 추가할 수 있습니다.

    Screenshot that displays the UI for adding dynamic content to Spark job definition activities.

사용자 속성 탭

이 패널에서 Apache Spark 작업 정의 활동에 대한 속성을 추가할 수 있습니다.

Screenshot that shows the UI for the properties for a spark job definition activity.

Azure Synapse spark 작업 정의 활동 정의

다음은 Azure Synapse Analytics Notebook 활동의 샘플 JSON 정의입니다.

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Azure Synapse Spark 작업 정의 속성

다음 표에서는 JSON 정의에 사용하는 JSON 속성을 설명합니다.

속성 설명 필수
name 파이프라인의 작업 이름입니다.
description 작업이 어떤 일을 수행하는지 설명하는 텍스트입니다. 아니요
type Azure Synapse spark 작업 정의 활동의 경우 작업 유형은 SparkJob입니다.

Azure Synapse Spark 작업 정의 활동 실행 기록 참조

모니터 탭의 파이프라인 실행으로 이동하면 트리거한 파이프라인이 표시됩니다. Azure Synapse Spark 작업 정의 활동이 포함된 파이프라인을 열어 실행 기록을 확인합니다.

Screenshot that shows the UI for the input and output for a spark job definition activity runs.

입력 또는 출력 단추를 선택하여 Notebook 활동 입력 또는 출력을 확인할 수 있습니다. 파이프라인이 실패하여 사용자 오류가 발생한 경우 출력을 선택하여 결과 필드에서 상세 사용자 오류 역추적을 확인합니다.

Screenshot that shows the UI for the output user error for a spark job definition activity runs.