AdlaStep Classe

Cria um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.

Crie um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Herança
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

script_name
str
Necessário

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
str
valor predefinido: None

O nome do passo. Se não for especificado, script_name é utilizado.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valor predefinido: None

Uma lista de enlaces de porta de entrada.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
valor predefinido: None

Uma lista de enlaces de portas de saída.

params
dict
valor predefinido: None

Um dicionário de pares nome-valor.

degree_of_parallelism
int
valor predefinido: None

O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1.

priority
int
valor predefinido: None

O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0.

runtime_version
str
valor predefinido: None

A versão de runtime do motor de Data Lake Analytics.

compute_target
AdlaCompute, str
valor predefinido: None

[Obrigatório] A computação do ADLA a utilizar para esta tarefa.

source_directory
str
valor predefinido: None

Uma pasta que contém o script, assemblagens, etc.

allow_reuse
bool
valor predefinido: True

Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados.

version
str
valor predefinido: None

Etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo.

hash_paths
list
valor predefinido: None

PRETERIDO: já não é necessário.

Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de source_directory são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

script_name
str
Necessário

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
str
Necessário

O nome do passo. Se não for especificado, script_name é utilizado.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Necessário

Lista de enlaces de porta de entrada

outputs
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Necessário

Uma lista de enlaces de portas de saída.

params
dict
Necessário

Um dicionário de pares nome-valor.

degree_of_parallelism
int
Necessário

O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1.

priority
int
Necessário

O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0.

runtime_version
str
Necessário

A versão de runtime do motor de Data Lake Analytics.

compute_target
AdlaCompute, str
Necessário

[Obrigatório] A computação do ADLA a utilizar para esta tarefa.

source_directory
str
Necessário

Uma pasta que contém o script, assemblagens, etc.

allow_reuse
bool
Necessário

Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados.

version
str
Necessário

Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo.

hash_paths
list
Necessário

PRETERIDO: já não é necessário.

Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de source_directory são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

Observações

Pode utilizar @@name@@ sintaxe no script para fazer referência a entradas, saídas e parâmetros.

  • se o nome for o nome de um enlace de porta de entrada ou saída, todas as ocorrências de @@name@@ no script são substituídas pelo caminho de dados real de um enlace de porta correspondente.

  • se o nome corresponder a qualquer chave no dict de parâmetros , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente em dict.

O AdlaStep funciona apenas com dados armazenados na Data Lake Storage predefinida da conta Data Lake Analytics. Se os dados estiverem num armazenamento não predefinido, utilize um DataTransferStep para copiar os dados para o armazenamento predefinido. Pode encontrar o armazenamento predefinido ao abrir a sua conta de Data Lake Analytics no portal do Azure e, em seguida, navegar para o item "Origens de dados" em Definições no painel esquerdo.

O exemplo seguinte mostra como utilizar o AdlaStep num Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

graph
Graph
Necessário

O objeto de gráfico.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Necessário

O arquivo de dados predefinido.

context
<xref:azureml.pipeline.core._GraphContext>
Necessário

O contexto do gráfico.

Devoluções

O objeto do nó.

Tipo de retorno