Synapse Notebook을 실행하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

파이프라인의 Azure Synapse Notebook 작업은 Azure Synapse Analytics 작업 영역에서 Synapse Notebook을 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

Azure Data Factory Studio 사용자 인터페이스를 통해 직접 Azure Synapse Analytics Notebook 작업을 만들 수 있습니다. 사용자 인터페이스를 사용하여 Synapse Notebook 작업을 만드는 방법에 대한 단계별 연습은 다음을 참조할 수 있습니다.

UI를 사용하여 파이프라인에 Synapse용 Notebook 작업 추가

파이프라인에서 Synapse에 대한 Notebook 작업을 사용하려면 다음 단계를 완료합니다.

일반 설정

  1. 파이프라인 작업 창에서 Notebook을 검색하고 Synapse 아래의 Notebook 작업을 파이프라인 캔버스로 끕니다.
  2. 아직 선택하지 않은 경우 캔버스에서 새 Notebook 작업을 선택합니다.
  3. 일반 설정에서 이름으로 sample을 입력합니다.
  4. (옵션) 설명을 입력할 수도 있습니다.
  5. 시간 제한: 활동을 실행할 수 있는 최대 시간입니다. 기본값은 12시간이며 허용되는 최대 시간은 7일입니다. 형식은 D.HH:MM:SS입니다.
  6. 재시도: 최대 재시도 횟수입니다.
  7. 재시도 간격(초): 각 연결 재시도 간의 초 단위 시간을 지정합니다.
  8. 보안 출력: 선택하면 작업의 출력값이 로깅에서 캡처되지 않습니다.
  9. 보안 입력: 각 연결 재시도 간의 시간(초)을 지정합니다.

Azure Synapse Analytics(아티팩트) 설정

Azure Synapse Analytics(아티팩트) 탭을 선택하여 Notebook 작업을 실행할 새 Azure Synapse Analytics 연결된 서비스를 선택하거나 만듭니다.

Screenshot of the linked service tab for a Notebook activity.

설정 탭

  1. 아직 선택하지 않은 경우 캔버스에서 새 Synapse Notebook 작업을 선택합니다.

  2. 설정 탭을 선택합니다.

  3. Notebook 목록을 확장하면 연결된 Azure Synapse Analytics(아티팩트)에서 기존 Notebook을 선택할 수 있습니다.

  4. 열기 단추를 클릭하여 선택한 Notebook이 있는 연결된 서비스의 페이지를 엽니다.

참고 항목

연결된 서비스의 작업 영역 리소스 ID가 비어 있으면 열기 단추가 비활성화됩니다.

Screenshot of the open button is disabled.

  1. 설정 탭을 선택하고 Notebook 및 선택적 기본 매개 변수를 선택하여 Notebook에 전달합니다.

    Screenshot of the Settings tab for a Notebook activity.

  2. (선택 사항) Synapse Notebook에 대한 정보를 입력할 수 있습니다. 다음 설정이 비어 있으면 Synapse Notebook 자체의 설정이 실행되는 데 사용됩니다. 다음 설정이 비어 있지 않으면 이러한 설정이 Synapse Notebook의 설정을 대체합니다.

    속성 설명
    Spark 풀 Spark 풀에 대한 참조입니다. 목록에서 Apache Spark 풀을 선택할 수 있습니다.
    실행기 크기 지정한 Apache Spark 풀에서 세션에 할당된 실행기에 사용할 코어 및 메모리 수입니다. 동적 콘텐츠의 경우 유효한 값은 Small/Medium/Large/XLarge/XXLarge입니다.
    동적으로 실행기를 할당 이 설정은 Spark 애플리케이션 실행기 할당을 위해 Spark 구성의 동적 할당 속성에 매핑됩니다.
    최소 실행기 작업에 대해 지정된 Spark 풀에 할당할 최소 실행기 수입니다.
    최대 실행기 작업에 대해 지정된 Spark 풀에 할당할 최대 실행기 수입니다.
    드라이버 크기 작업에 대해 지정된 Apache Spark 풀에 제공된 드라이버에 사용할 코어 및 메모리의 수입니다.

Azure Synapse Analytics Notebook 작업 정의

다음은 Azure Synapse Analytics Notebook 작업의 샘플 JSON 정의입니다.

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Azure Synapse Analytics Notebook 작업 속성

다음 표에서는 JSON 정의에 사용하는 JSON 속성을 설명합니다.

속성 설명 필수
name 파이프라인의 작업 이름입니다.
description 작업이 어떤 일을 수행하는지 설명하는 텍스트입니다. 아니요
type Azure Synapse Analytics Notebook 작업의 경우 작업 유형은 SynapseNotebook입니다.
Notebook Azure Synapse Analytics에서 실행할 Notebook의 이름입니다.
sparkPool Azure Synapse Analytics Notebook을 실행하는 데 필요한 Spark 풀입니다. 아니요
parameter Azure Synapse Analytics Notebook을 실행하는 데 필요한 매개 변수입니다. 자세한 내용은 Synapse Notebook을 실행하여 데이터 변환을 참조하세요. 아니요

매개 변수 셀 지정

Azure Data Factory는 매개 변수 셀을 찾고 실행 시 전달되는 매개 변수의 기본값으로 이 값을 사용합니다. 실행 엔진은 기본값을 덮어쓰기 위해 입력 매개 변수를 사용하여 매개 변수 셀 아래에 새 셀을 추가합니다. Synapse Notebook을 실행하여 데이터 변환을 참조할 수 있습니다.

Synapse Notebook 셀 출력 값 읽기

작업에서 Notebook 셀 출력 값을 읽을 수 있습니다. 이 패널의 경우 Synapse Notebook을 실행하여 데이터 변환을 참조할 수 있습니다.

다른 Synapse Notebook 실행

%run magic 또는 mssparkutils Notebook 유틸리티를 호출하여 Synapse Notebook 활동에서 다른 Notebook을 참조할 수 있습니다. 모두 중첩 함수 호출을 지원합니다. 시나리오에 따라 다음과 같이 이 두 방법 사이의 주요 차이점을 고려해야 합니다.

  • %run magic은 참조된 Notebook의 모든 셀을 %run 셀에 복사하고 변수 컨텍스트를 공유합니다. notebook1이 %run notebook2를 통해 notebook2를 참조하고 notebook2는 mssparkutils.notebook.exit 함수를 호출할 경우 notebook1의 셀 실행이 중지됩니다. Notebook 파일을 "포함"하려면 %run magic을 사용하는 것이 좋습니다.
  • mssparkutils Notebook 유틸리티는 참조된 Notebook을 메서드나 함수 형태로 호출합니다. 변수 컨텍스트는 공유되지 않습니다. notebook1이 mssparkutils.notebook.run("notebook2")를 통해 notebook2를 참조하고 notebook2는 mssparkutils.notebook.exit 함수를 호출할 경우 notebook1의 셀 실행이 진행됩니다. Notebook을 "가져오려는” 경우 mssparkutils Notebook 유틸리티를 사용하는 것이 좋습니다.

Azure Synapse Analytics Notebook 작업 실행 기록 보기

모니터 탭의 파이프라인 실행으로 이동하면 트리거한 파이프라인이 표시됩니다. Notebook 활동을 포함하는 파이프라인을 열어 실행 기록을 확인합니다.

Screenshot of the input and output for a Notebook activity.

Notebook 스냅샷 열기의 경우 이 기능은 현재 지원되지 않습니다.

입력 또는 출력 단추를 선택하여 Notebook 작업 입력 또는 출력을 확인할 수 있습니다. 파이프라인이 실패하여 사용자 오류가 발생한 경우 출력을 선택하여 결과 필드에서 상세 사용자 오류 역추적을 확인합니다.

Screenshot of the output user error for a Notebook activity.