databricks_step Модуль

Содержит функциональные возможности для создания этапа конвейера Azure ML для выполнения записной книжки Databricks или сценария Python в DBFS.

Классы

DatabricksStep

Создает этап конвейера Azure ML для добавления записной книжки DataBricks, сценария Python или JAR в качестве узла.

Пример использования DatabricksStep приведен в записной книжке https://aka.ms/pl-databricks.

Создайте шаг конвейера Машинного обучения Azure, чтобы добавить записную книжку DataBricks, скрипт Python или JAR-файл в качестве узла.

Пример использования DatabricksStep приведен в записной книжке https://aka.ms/pl-databricks.

:p aram python_script_name:[Обязательно] Имя скрипта Python относительно source_directory. Если скрипт принимает входные и выходные данные, они передаются в скрипт в качестве параметров. Если указан python_script_name, то должен быть указан и source_directory.

Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

Если указать объект DataReference в качестве входных данных с помощью data_reference_name=input1 и объект PipelineData в качестве выходных данных с помощью name=output1, то входные и выходные данные будут переданы в скрипт в качестве параметров. Они будут выглядеть описанным ниже образом, и при этом необходимо проанализировать аргументы в скрипте для доступа к путям всех входных и выходных данных: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Кроме того, в скрипте будут доступны следующие параметры:

  • AZUREML_RUN_TOKEN: маркер AML для проверки подлинности с помощью Машинного обучения Azure.
  • AZUREML_RUN_TOKEN_EXPIRY: время окончания срока действия маркера AML.
  • AZUREML_RUN_ID: идентификатор выполнения Машинного обучения Azure для этого выполнения.
  • AZUREML_ARM_SUBSCRIPTION: подписка Azure для рабочей области AML.
  • AZUREML_ARM_RESOURCEGROUP: группа ресурсов Azure для рабочей области Машинного обучения Azure.
  • AZUREML_ARM_WORKSPACE_NAME: имя рабочей области Машинного обучения Azure.
  • AZUREML_ARM_PROJECT_NAME: имя эксперимента Машинного обучения Azure.
  • AZUREML_SERVICE_ENDPOINT: URL-адрес конечной точки для служб AML.
  • AZUREML_WORKSPACE_ID: идентификатор рабочей области Машинного обучения Azure.
  • AZUREML_EXPERIMENT_ID: идентификатор эксперимента Машинного обучения Azure.
  • AZUREML_SCRIPT_DIRECTORY_NAME: путь к каталогу в DBFS, куда было скопировано source_directory.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

При выполнении скрипта Python с локального компьютера в Databricks с помощью параметров DatabricksStep source_directory и python_script_name, source_directory копируется в DBFS, а путь к каталогу в DBFS передается в качестве параметра скрипту при начале выполнения. Этот параметр обозначен как –AZUREML_SCRIPT_DIRECTORY_NAME. Необходимо добавить к нему префикс со строкой "dbfs:/" or "/dbfs/" для получения доступа к каталогу в DBFS.