DatabricksStep 클래스

참조

DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가하는 Azure ML 파이프라인 단계를 만듭니다.

DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.

Azure ML 파이프라인 단계를 만들어 DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가합니다.

DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.

:p aram python_script_name:[필수] 에 상대적 source_directory인 Python 스크립트의 이름입니다. 스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

DataReference 개체를 data_reference_name=input1에 입력으로 지정하고 PipelineData 개체를 name=output1에 출력으로 지정하면 입력과 출력이 매개 변수로 스크립트에 전달됩니다. 그러면 다음과 같이 표시되며 각 입력 및 출력의 경로에 액세스하려면 스크립트의 인수를 구문 분석해야 합니다. "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.

AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

DatabricksStep 매개 변수 source_directory 및 python_script_name을 사용하여 Databricks의 로컬 머신에서 Python 스크립트를 실행하는 경우 source_directory가 DBFS로 복사되고 DBFS의 디렉터리 경로가 실행을 시작할 때 스크립트에 매개 변수로 전달됩니다. 이 매개 변수의 레이블은 AZUREML_SCRIPT_DIRECTORY_NAME입니다. DBFS의 디렉터리에 액세스하려면 문자열 “dbfs:/” 또는 “/dbfs/”를 접두사로 추가해야 합니다.

상속: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

생성자

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

매개 변수

name: str

필수

[필수] 단계의 이름입니다.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

기본값: None

이 단계에서 사용하는 데이터에 대한 입력 연결 목록입니다. dbutils.widgets.get("input_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. DataReference 또는 PipelineData일 수 있습니다. DataReference는 데이터 저장소의 기존 데이터 부분을 나타냅니다. 기본적으로 데이터 저장소의 경로입니다. DatabricksStep은 DBFS, Azure Blob 또는 ADLS v1을 캡슐화하는 데이터 저장소를 지원합니다. PipelineData는 파이프라인의 다른 단계에서 생성된 중간 데이터를 나타냅니다.

outputs: list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]

기본값: None

이 단계에서 생성된 출력에 대한 출력 포트 정의 목록입니다. dbutils.widgets.get("output_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. PipelineData여야 합니다.

existing_cluster_id: str

기본값: None

Databricks 작업 영역에 있는 기존 대화형 클러스터의 클러스터 ID입니다. 이 매개 변수를 전달하는 경우 새 클러스터를 만드는 데 사용되는 다음 매개 변수를 전달할 수 없습니다.

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

참고: 새 작업 클러스터를 만들려면 위의 매개 변수를 전달해야 합니다. 이러한 매개 변수를 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달할 수 있습니다. 이러한 매개 변수를 RunConfiguration을 통해 직접 전달하면 오류가 발생합니다.

spark_version: str

기본값: None

Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12"). 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

node_type: str

기본값: None

[필수] Databricks에 대한 Azure VM 노드 유형은 클러스터(예: "Standard_D3_v2")를 실행합니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

instance_pool_id: str

기본값: None

[필수] 클러스터를 연결해야 하는 인스턴스 풀 ID입니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

num_workers: int

기본값: None

[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

min_workers: int

기본값: None

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

max_workers: int

기본값: None

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_env_variables: dict

기본값: None

Databricks 실행 클러스터에 대한 Spark 환경 변수입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_conf: dict

기본값: None

Databricks 실행 클러스터에 대한 Spark 구성입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

init_scripts: [str]

기본값: None

더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) 다음 https://learn.microsoft.com/azure/databricks/init-scripts/global databricks에서 전역 init 스크립트를 사용하세요. 2) AzureML databricks 단계에서 init_scripts 줄을 주석 처리합니다.

cluster_log_dbfs_path: str

기본값: None

클러스터 로그를 전달할 DBFS 경로입니다.

notebook_path: str

기본값: None

[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.

Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.
DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.
DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.
로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

notebook_params: dict[str, Union[str, PipelineParameter]]

기본값: None

Notebook에 전달할 매개 변수 사전입니다. notebook_params는 위젯으로 사용할 수 있습니다. dbutils.widgets.get("myparam")을 사용하여 Notebook 내에서 이러한 위젯의 값을 가져올 수 있습니다.

python_script_path: str

기본값: None

[필수] DBFS의 Python 스크립트 경로입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

python_script_params: list[str, PipelineParameter]

기본값: None

Python 스크립트에 대한 매개 변수입니다.

main_class_name: str

기본값: None

[필수] JAR 모듈의 진입점 이름입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

jar_params: list[str, PipelineParameter]

기본값: None

JAR 모듈에 대한 매개 변수입니다.

python_script_name: str

기본값: None

[필수] source_directory와 관련된 Python 스크립트의 이름입니다. 스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.

AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다. (이 매개 변수는 가 사용되는 경우에만 채워집니다 python_script_name . 자세한 내용은 아래를 참조하세요.)

source_directory: str

기본값: None

스크립트 및 기타 파일을 포함하는 폴더입니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

hash_paths: [str]

기본값: None

사용되지 않음: 더 이상 필요하지 않습니다.

단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 source_directory의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.

run_name: str

기본값: None

이 실행에 대한 Databricks의 이름입니다.

timeout_seconds: int

기본값: None

Databricks 실행에 대한 시간 제한입니다.

runconfig: RunConfiguration

기본값: None

사용할 runconfig입니다.

참고: maven_libraries, pypi_libraries, egg_libraries, jar_libraries 또는 rcran_libraries 매개 변수를 사용하여 종속성을 원하는 만큼 작업에 전달할 수 있습니다. 이러한 매개 변수를 해당 매개 변수와 함께 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달하되 둘 다 전달해서는 안 됩니다.

maven_libraries: list[MavenLibrary]

기본값: None

Databricks 실행에 사용할 Maven 라이브러리입니다.

pypi_libraries: list[PyPiLibrary]

기본값: None

Databricks 실행에 사용할 PyPi 라이브러리입니다.

egg_libraries: list[EggLibrary]

기본값: None

Databricks 실행에 사용할 Egg 라이브러리입니다.

jar_libraries: list[JarLibrary]

기본값: None

Databricks 실행에 사용할 Jar 라이브러리입니다.

rcran_libraries: list[RCranLibrary]

기본값: None

Databricks 실행에 사용할 RCran 라이브러리입니다.

compute_target: str, DatabricksCompute

기본값: None

[필수] Azure Databricks 컴퓨팅입니다. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.

allow_reuse: bool

기본값: True

동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.

version: str

기본값: None

단계의 기능 변경을 나타내는 선택적 버전 태그입니다.

permit_cluster_restart: bool

기본값: None

existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.

name: str

필수

[필수] 단계의 이름입니다.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

필수

outputs: list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

필수

existing_cluster_id: str

필수

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

spark_version: str

필수

Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12"). 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

node_type: str

필수

instance_pool_id: str

필수

num_workers: int

필수

[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

min_workers: int

필수

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

max_workers: int

필수

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다. num_workers 또는 min_workers와 max_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_env_variables: dict

필수

Databricks 실행 클러스터에 대한 Spark 환경 변수입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_conf: dict

필수

Databricks 실행 클러스터에 대한 Spark 구성입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

init_scripts: [str]

필수

더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) Databricks에서 전역 init 스크립트를 사용하고 2) AzureML databricks https://learn.microsoft.com/azure/databricks/init-scripts/global 단계에서 init_scripts 줄을 주석 처리합니다.

cluster_log_dbfs_path: str

필수

클러스터 로그를 전달할 DBFS 경로입니다.

notebook_path: str

필수

[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.

Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.
DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.
DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.
로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

notebook_params: dict[str, (str 또는 PipelineParameter)]

필수

python_script_path: str

필수

[필수] DBFS의 Python 스크립트 경로입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

python_script_params: list[str, PipelineParameter]

필수

Python 스크립트에 대한 매개 변수입니다.

main_class_name: str

필수

[필수] JAR 모듈의 진입점 이름입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

jar_params: list[str, PipelineParameter]

필수

JAR 모듈에 대한 매개 변수입니다.

source_directory: str

필수

스크립트 및 기타 파일을 포함하는 폴더입니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

hash_paths: [str]

필수

사용되지 않음: 더 이상 필요하지 않습니다.

run_name: str

필수

이 실행에 대한 Databricks의 이름입니다.

timeout_seconds: int

필수

Databricks 실행에 대한 시간 제한입니다.

runconfig: RunConfiguration

필수

사용할 runconfig입니다.

maven_libraries: list[<xref:azureml.core.runconfig.MavenLibrary>]

필수

Databricks 실행에 사용할 Maven 라이브러리입니다. Maven 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.MavenLibrary)하세요.

pypi_libraries: list[<xref:azureml.core.runconfig.PyPiLibrary>]

필수

Databricks 실행에 사용할 PyPi 라이브러리입니다. PyPi 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.PyPiLibrary)하세요.

egg_libraries: list[<xref:azureml.core.runconfig.EggLibrary>]

필수

Databricks 실행에 사용할 Egg 라이브러리입니다. Egg 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.EggLibrary)하세요.

jar_libraries: list[<xref:azureml.core.runconfig.JarLibrary>]

필수

Databricks 실행에 사용할 Jar 라이브러리입니다. Jar 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.JarLibrary)하세요.

rcran_libraries: list[<xref:azureml.core.runconfig.RCranLibrary>]

필수

Databricks 실행에 사용할 RCran 라이브러리입니다. RCran 라이브러리 사양에 대한 자세한 내용은 를 참조 help(azureml.core.runconfig.RCranLibrary)하세요.

compute_target: str, DatabricksCompute

필수

[필수] Azure Databricks 컴퓨팅. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.

allow_reuse: bool

필수

version: str

필수

단계의 기능 변경을 나타내는 선택적 버전 태그입니다.

permit_cluster_restart: bool

필수

existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.

메서드

create_node

Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다.

create_node

Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

create_node(graph, default_datastore, context)

매개 변수

graph: Graph

필수

노드를 추가할 그래프 개체입니다.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

필수

기본 데이터 저장소입니다.

context: <xref:azureml.pipeline.core._GraphContext>

필수

그래프 컨텍스트입니다.

반환

만들어진 노드입니다.

반환 형식

Node

DatabricksStep 클래스

생성자

매개 변수

메서드

create_node

매개 변수

반환

반환 형식

피드백

피드백

추가 리소스