DatabricksStep Classe

Cria um passo de Pipeline ML Azure para adicionar um caderno DataBricks, script Python ou JAR como nó.

Para um exemplo de utilização do DatabricksStep, consulte o caderno https://aka.ms/pl-databricks .

Herança
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Construtor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parâmetros

name
<xref:str>

[Obrigatório] O nome do degrau.

inputs
<xref:list>[<xref:typing.Union>[<xref:azureml.pipeline.core.graph.InputPortBinding,azureml.data.data_reference.DataReference,azureml.pipeline.core.PortDataReference,azureml.pipeline.core.builder.PipelineData>]]

Uma lista de ligações de entrada para dados consumidos por este passo. Traga-o dentro do caderno usando dbutils.widgets.get ("input_name"). Pode ser DataReference ou PipelineData. A DataReference representa um dado existente numa datastore. Essencialmente, este é um caminho numa datastore. DatabricksStep suporta datastores que encapsulam DBFS, Azure blob ou ADLS v1. O PipelineData representa dados intermédios produzidos por mais um passo num oleoduto.

outputs
<xref:list>[<xref:typing.Union>[<xref:azureml.pipeline.core.graph.OutputPortBinding,azureml.pipeline.core.pipeline_output_dataset.PipelineOutputAbstractDataset,azureml.pipeline.core.builder.PipelineData>]]

Uma lista das definições portuárias de saída para as saídas produzidas por este passo. Traga-o dentro do caderno usando dbutils.widgets.get ("output_name"). Deve ser PipelineData.

existing_cluster_id
<xref:str>

Uma identificação de cluster de um cluster interativo existente no espaço de trabalho databricks. Se estiver a passar este parâmetro, não pode passar nenhum dos seguintes parâmetros que são utilizados para criar um novo cluster:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Nota: Para criar um novo cluster de emprego, terá de passar os parâmetros acima. Pode passar estes parâmetros diretamente ou pode passá-los como parte do objeto RunConfiguration utilizando o parâmetro runconfig. Passar estes parâmetros diretamente e através da RunConfiguration resulta num erro.

spark_version
<xref:str>

A versão de faísca para o cluster de execução databricks, por exemplo: "4.0.x-scala2.11". Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

node_type
<xref:str>

[Obrigatório] Os tipos de nó VM Azure para o cluster de execução databricks, por exemplo: "Standard_D3_v2". Especificar ou node_type instance_pool_id especificar ou . Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

instance_pool_id
<xref:str>

[Obrigatório] A identificação da piscina de exemplo à qual o cluster precisa de ser ligado. Especificar ou node_type instance_pool_id especificar ou . Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

num_workers
<xref:int>

[Obrigatório] O número estático de trabalhadores para o agrupamento de databricks. Tem de especificar um num_workers ou ambos min_workers e max_workers . Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

min_workers
<xref:int>

[Obrigatório] O número min de trabalhadores a utilizar para a escala automática do cluster de corrida databricks. Tem de especificar um num_workers ou ambos min_workers e max_workers . Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

max_workers
<xref:int>

[Obrigatório] O número máximo de trabalhadores a utilizar para a escala automática do cluster de corridas databricks. Tem de especificar um num_workers ou ambos min_workers e max_workers . Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

spark_env_variables
<xref:dict>

As variáveis do ambiente de faísca para o cluster de execução databricks. Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

spark_conf
<xref:dict>

A configuração de faísca para o cluster de execução databricks. Para mais informações, consulte a descrição do existing_cluster_id parâmetro.

init_scripts
[<xref:str>]

O DBFS caminhos para inibilar scripts para o novo cluster.

cluster_log_dbfs_path
<xref:str>

Os caminhos DBFS onde os registos de aglomerados devem ser entregues.

notebook_path
<xref:str>

[Obrigatório] O caminho para o caderno no caso Databricks. Esta classe permite quatro formas de especificar o código a executar no cluster Databricks.

  1. Para executar um caderno que esteja presente no espaço de trabalho databricks, utilize: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Para executar um script Python que está presente no DBFS, use: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Para executar um JAR que esteja presente na DBFS, utilize: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Para executar um script Python que esteja presente na sua máquina local, use: python_script_name=python_script_name, source_directory=source_directory

Especifique exatamente um de notebook_path python_script_path , , ou python_script_name main_class_name .

notebook_params
<xref:dict>[<xref:str>, <xref:typing.Union>[<xref:str>, PipelineParameter]]

Um dicionário de parâmetros para passar para o caderno. notebook_params estão disponíveis como widgets. Você pode obter os valores destes widgets dentro do seu caderno usando dbutils.widgets.get ("myparam").

python_script_path
<xref:str>

[Obrigatório] O caminho para o roteiro da piton no DBFS. Especifique exatamente um de notebook_path python_script_path , , ou python_script_name main_class_name .

python_script_params
<xref:list>[<xref:str>, PipelineParameter]

Parâmetros para o roteiro python.

main_class_name
<xref:str>

[Obrigatório] O nome do ponto de entrada num módulo JAR. Especifique exatamente um de notebook_path python_script_path , , ou python_script_name main_class_name .

jar_params
<xref:list>[<xref:str>, PipelineParameter]

Parâmetros para o módulo JAR.

python_script_name
<xref:str>

[Obrigatório] O nome de um roteiro python relativo a source_directory . Se o script tomar entradas e saídas, estas serão passadas para o script como parâmetros. Se python_script_name for especificado, então source_directory deve ser também.

Especifique exatamente um de notebook_path python_script_path , , ou python_script_name main_class_name .

Se especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com nome=output1, então as entradas e saídas serão transmitidas para o script como parâmetros. É assim que eles vão parecer e terás de analisar os argumentos no teu script para acederes aos caminhos de cada entrada e saída: "-input1", wasbs://test@storagename.blob.core.windows.net/test ""-output1", wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1 "

Além disso, os seguintes parâmetros estarão disponíveis dentro do roteiro:

  • AZUREML_RUN_TOKEN: O símbolo AML para autenticar com Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: O prazo de validade do AML.
  • AZUREML_RUN_ID: Azure Machine Learning executar o ID para esta corrida.
  • AZUREML_ARM_SUBSCRIPTION: Subscrição Azure para o seu espaço de trabalho AML.
  • AZUREML_ARM_RESOURCEGROUP: Grupo de recursos Azure para o seu espaço de trabalho Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: O nome do seu espaço de trabalho Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: O nome da sua experiência Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Estrutura de percursos de diretório na DBFS onde source_directory foi copiado.
  • AZUREML_SERVICE_ENDPOINT: O URL de ponto final para serviços de AML.

Quando está a executar um script Python a partir da sua máquina local em Databricks usando AZUREML_SCRIPT_DIRECTORY_NAME_ARG_VARIABLE DatabricksStep o seu source_directory é copiado para o DBFS e o caminho da estrutura do diretório no DBFS é passado como um parâmetro para o seu script quando começa a execução. Este parâmetro está rotulado como AZUREML_SCRIPT_DIRECTORY_NAME. Precisa prefixá-lo com a corda "dbfs:/" ou "/dbfs/" para aceder ao diretório em DBFS.

source_directory
<xref:str>

A pasta que contém o script e outros ficheiros. Se python_script_name for especificado, então source_directory deve ser também.

hash_paths
[<xref:str>]

Deprecado: já não é necessário.

Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não houver alterações detetadas, o gasoduto reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de source_directory são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

run_name
<xref:str>

O nome em Databricks para esta corrida.

timeout_seconds
<xref:int>

O tempo limite para os Databricks.

runconfig
RunConfiguration

O runconfig para usar.

Nota: Pode passar quantas bibliotecas quiser como dependências ao seu trabalho utilizando os seguintes parâmetros: maven_libraries , , , ou pypi_libraries egg_libraries jar_libraries rcran_libraries . Ou passa estes parâmetros diretamente com os parâmetros correspondentes ou como parte do objeto RunConfiguration utilizando o runconfig parâmetro, mas não ambos.

maven_libraries
<xref:list>[MavenLibrary]

Bibliotecas Maven para usar para a execução de Databricks.

pypi_libraries
<xref:list>[PyPiLibrary]

Bibliotecas PyPi para usar para a execução de Databricks.

egg_libraries
<xref:list>[EggLibrary]

Bibliotecas de ovos para usar para a corrida databricks.

jar_libraries
<xref:list>[JarLibrary]

Bibliotecas de frascos para usar para a execução de Databricks.

rcran_libraries
<xref:list>[RCranLibrary]

As bibliotecas RCran para usar para a execução de Databricks.

compute_target
<xref:str>, DatabricksCompute

[Obrigatório] Um cálculo Azure Databricks. Antes de utilizar o DatabricksStep para executar os seus scripts ou cadernos num espaço de trabalho Azure Databricks, precisa de adicionar o espaço de trabalho Azure Databricks como alvo de computação ao seu espaço de trabalho Azure Machine Learning.

allow_reuse
<xref:bool>

Indica se o passo deve reutilizar os resultados anteriores quando re-executar com as mesmas definições. A reutilização é ativada por defeito. Se o conteúdo do passo (scripts/dependências) bem como as entradas e parâmetros permanecerem inalterados, a saída do percurso anterior deste passo é reutilizada. Ao reutilizar o passo, em vez de submeter o trabalho a computar, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se utilizar Azure Machine Learning conjuntos de dados como entradas, a reutilização é determinada se a definição do conjunto de dados mudou, não se os dados subjacentes mudaram.

version
<xref:str>

Uma etiqueta de versão opcional para denotar uma mudança de funcionalidade para o passo.

permit_cluster_restart
<xref:bool>

se existing_cluster_id for especificado, este parâmetro indica se o cluster pode ser reiniciado em nome do utilizador.

Métodos

create_node

Crie um nó a partir do passo databricks e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um gasoduto é instantâneo com este passo, o Azure ML passa automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node

Crie um nó a partir do passo databricks e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um gasoduto é instantâneo com este passo, o Azure ML passa automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

graph
Graph

O objeto gráfico para adicionar o nó.

default_datastore
<xref:typing.Union>[<xref:azureml.data.azure_storage_datastore.AbstractAzureStorageDatastore,azureml.data.azure_data_lake_datastore.AzureDataLakeDatastore>]

A loja de dados predefinido.

context
<xref:azureml.pipeline.core._GraphContext>

O contexto gráfico.

Devoluções

O nó criado.

Tipo de retorno