AdlaStep 클래스

참조

Azure Data Lake Analytics를 사용하여 U-SQL 스크립트를 실행하는 Azure ML 파이프라인 단계를 만듭니다.

이 AdlaStep 사용의 예제는 Notebook https://aka.ms/pl-adla을 참조하세요.

Azure ML 파이프라인 단계를 만들어 Azure Data Lake Analytics 사용하여 U-SQL 스크립트를 실행합니다.

상속: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

생성자

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

매개 변수

Name	Description
script_name 필수	str [필수] `source_directory`와 관련된 U-SQL 스크립트의 이름입니다.
name	str 단계의 이름입니다. 지정하지 않으면 `script_name`이 사용됩니다. 기본값: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 입력 포트 바인딩 목록입니다. 기본값: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] 출력 포트 바인딩 목록입니다. 기본값: None
params	dict 이름-값 쌍의 사전입니다. 기본값: None
degree_of_parallelism	int 이 작업에 사용할 병렬 처리 수준입니다. 0보다 커야 합니다. 0보다 작게 설정하면 기본값인 1로 설정됩니다. 기본값: None
priority	int 현재 작업에 사용할 우선 순위 값입니다. 숫자가 낮을수록 우선 순위가 높습니다. 기본적으로 작업의 우선 순위는 1,000입니다. 0보다 큰 값을 지정해야 합니다. 기본값: None
runtime_version	str Data Lake Analytics 엔진의 런타임 버전입니다. 기본값: None
compute_target	AdlaCompute, str [필수] 이 작업에 사용할 ADLA 컴퓨팅입니다. 기본값: None
source_directory	str 스크립트, 어셈블리 등을 포함하는 폴더입니다. 기본값: None
allow_reuse	bool 동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 세트를 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 세트의 정의가 변경되었는지 여부에 따라 결정됩니다. 기본값: True
version	str 단계의 기능 변경을 나타내는 선택적 버전 태그입니다. 기본값: None
hash_paths	list 사용되지 않음: 더 이상 필요하지 않습니다. 단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 `source_directory`의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다. 기본값: None
script_name 필수	str [필수] `source_directory`와 관련된 U-SQL 스크립트의 이름입니다.
name 필수	str 단계의 이름입니다. 지정하지 않으면 `script_name`이 사용됩니다.
inputs 필수	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 입력 포트 바인딩 목록
outputs 필수	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] 출력 포트 바인딩 목록입니다.
params 필수	dict 이름-값 쌍의 사전입니다.
degree_of_parallelism 필수	int 이 작업에 사용할 병렬 처리 수준입니다. 0보다 커야 합니다. 0보다 작게 설정하면 기본값인 1로 설정됩니다.
priority 필수	int 현재 작업에 사용할 우선 순위 값입니다. 숫자가 낮을수록 우선 순위가 높습니다. 기본적으로 작업의 우선 순위는 1,000입니다. 0보다 큰 값을 지정해야 합니다.
runtime_version 필수	str Data Lake Analytics 엔진의 런타임 버전입니다.
compute_target 필수	AdlaCompute, str [필수] 이 작업에 사용할 ADLA 컴퓨팅입니다.
source_directory 필수	str 스크립트, 어셈블리 등을 포함하는 폴더입니다.
allow_reuse 필수	bool 동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.
version 필수	str 단계의 기능 변경을 나타내는 선택적 버전 태그입니다.
hash_paths 필수	list 사용되지 않음: 더 이상 필요하지 않습니다. 단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 `source_directory`의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.

설명

스크립트에서 @@name@@ 구문을 사용하여 입력, 출력, 매개 변수를 참조할 수 있습니다.

name이 입력 또는 출력 포트 바인딩의 이름이면 스크립트에서 발생한 @@name@@은 해당 포트 바인딩의 실제 데이터 경로로 바뀝니다.
name이 params dict의 키와 일치하면 발생한 @@name@@은 dict의 해당 값으로 바뀝니다.

AdlaStep은 Data Lake Analytics 계정의 기본 Data Lake Storage에 저장된 데이터에서만 작동합니다. 데이터가 기본이 아닌 스토리지에 있는 경우 DataTransferStep을 사용하여 데이터를 기본 스토리지에 복사합니다. Azure Portal에서 Data Lake Analytics 계정을 연 다음, 왼쪽 창의 설정 아래에 있는 ‘데이터 원본’ 항목으로 이동하여 기본 스토리지를 찾을 수 있습니다.

다음 예제에서는 Azure Machine Learning 파이프라인에서 AdlaStep을 사용하는 방법을 보여 줍니다.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

전체 샘플은 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb에서 사용할 수 있습니다.

메서드

create_node

AdlaStep 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다.

create_node

AdlaStep 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

create_node(graph, default_datastore, context)

매개 변수

Name	Description
graph 필수	Graph 그래프 개체입니다.
default_datastore 필수	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 기본 데이터 저장소입니다.
context 필수	<xref:azureml.pipeline.core._GraphContext> 그래프 컨텍스트입니다.

반환

형식	Description
Node	노드 개체입니다.

Share via

AdlaStep 클래스

생성자

매개 변수

설명

메서드

create_node

매개 변수

반환

피드백

피드백

추가 리소스