PipelineData Classe

Representa dados intermediários em um pipeline de Azure Machine Learning.

Os dados usados no pipeline podem ser produzidos por uma etapa e consumidos em outra etapa, fornecendo um objeto PipelineData como uma saída de uma etapa e uma entrada de uma ou mais etapas subsequentes.

Herança
builtins.object
PipelineData

Construtor

PipelineData(name, datastore=None, output_name=None, output_mode='mount', output_path_on_compute=None, output_overwrite=None, data_type=None, is_directory=None, pipeline_output_name=None, training_output=None)

Parâmetros

name
str

O nome do objeto PipelineData, que pode conter apenas letras, dígitos e sublinhados.

Os nomes PipelineData são usados para identificar as saídas de uma etapa. Depois que uma execução de pipeline for concluída, você poderá usar o nome da etapa com um nome de saída para acessar uma saída específica. Os nomes devem ser exclusivos em uma única etapa em um pipeline.

datastore
AbstractAzureStorageDatastore ou AzureDataLakeDatastore

O repositório de armazenamento no qual o PipelineData residirá. Se não for especificado, o repositório de armazenamento padrão será usado.

output_name
str

O nome da saída, se nenhum nome for usado. Pode conter apenas letras, dígitos e sublinhados.

output_mode
str

Especifica se a etapa de produção usará o método "carregar" ou "montar" para acessar os dados.

output_path_on_compute
str

Para output_mode = "carregar", esse parâmetro representa o caminho no qual o módulo grava a saída.

output_overwrite
bool

Para output_mode = "carregar", esse parâmetro especifica se os dados existentes devem ser substituídos.

data_type
str

Opcional. O tipo de dados pode ser usado para especificar o tipo esperado da saída e para detalhar como as etapas de consumo devem usar os dados. Pode ser qualquer cadeia de caracteres definida pelo usuário.

is_directory
bool

Especifica se os dados são um diretório ou um único arquivo. Isso só é usado para determinar um tipo de dados usado pelo back-end do Azure ML quando o data_type parâmetro não é fornecido. O padrão é False.

pipeline_output_name

Se fornecida, essa saída estará disponível usando PipelineRun.get_pipeline_output() . Os nomes de saída do pipeline devem ser exclusivos no pipeline.

training_output
TrainingOutput

Define a saída para o resultado do treinamento. Isso é necessário apenas para treinamentos específicos que resultam em diferentes tipos de saídas, como métricas e modelo. Por exemplo, AutoMLStep resulta em métricas e modelo. Você também pode definir a iteração de treinamento específica ou a métrica usada para obter o melhor modelo. Para o HyperDriveStep , você também pode definir os arquivos de modelo específicos a serem incluídos na saída.

Comentários

PipelineData representa a saída de dados que uma etapa produzirá quando for executada. Use PipelineData ao criar etapas para descrever os arquivos ou diretórios que serão gerados pela etapa. Essas saídas serão adicionadas ao repositório de dados especificado e poderão ser recuperadas e exibidas posteriormente.

Por exemplo, a seguinte etapa de pipeline produz uma saída, chamada "Model":


   from azureml.pipeline.core import PipelineData
   from azureml.pipeline.steps import PythonScriptStep

   datastore = ws.get_default_datastore()
   step_output = PipelineData("model", datastore=datastore)
   step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", step_output],
                           outputs=[step_output],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Nesse caso, o script train.py gravará o modelo que ele produz no local que é fornecido ao script por meio do argumento--Model.

Os objetos PipelineData também são usados ao construir pipelines para descrever as dependências de etapa. Para especificar que uma etapa requer a saída de outra etapa como entrada, use um objeto PipelineData no construtor de ambas as etapas.

Por exemplo, a etapa de treinamento do pipeline depende do process_step_output saída da etapa do processo do pipeline:


   from azureml.pipeline.core import Pipeline, PipelineData
   from azureml.pipeline.steps import PythonScriptStep

   datastore = ws.get_default_datastore()
   process_step_output = PipelineData("processed_data", datastore=datastore)
   process_step = PythonScriptStep(script_name="process.py",
                                   arguments=["--data_for_train", process_step_output],
                                   outputs=[process_step_output],
                                   compute_target=aml_compute,
                                   source_directory=process_directory)
   train_step = PythonScriptStep(script_name="train.py",
                                 arguments=["--data_for_train", process_step_output],
                                 inputs=[process_step_output],
                                 compute_target=aml_compute,
                                 source_directory=train_directory)

   pipeline = Pipeline(workspace=ws, steps=[process_step, train_step])

Isso criará um pipeline com duas etapas. A etapa do processo será executada primeiro e, depois de concluída, a etapa de treinamento será executada. O Azure ML fornecerá a saída produzida pela etapa do processo para a etapa de treinamento.

Consulte esta página para obter mais exemplos de como usar PipelineData para construir um pipeline: https://aka.ms/pl-data-dep

Para tipos de computação com suporte, PipelineData também pode ser usado para especificar como os dados serão produzidos e consumidos pela execução. Há dois métodos com suporte:

  • Montagem (padrão): os dados de entrada ou saída são montados no armazenamento local no nó de computação e uma variável de ambiente é definida que aponta para o caminho desses dados ($AZUREML _DATAREFERENCE_name). Para sua conveniência, você pode passar o objeto PipelineData em como um dos argumentos para seu script, por exemplo, usando o arguments parâmetro de PythonScriptStep , e o objeto será resolvido para o caminho para os dados. Para saídas, o script de computação deve criar um arquivo ou diretório nesse caminho de saída. Para ver o valor da variável de ambiente usado quando você passa o objeto de pipeline como um argumento, use o get_env_variable_name método.

  • Carregar: especifique um output_path_on_compute correspondente a um nome de arquivo ou diretório que seu script irá gerar. (As variáveis de ambiente não são usadas nesse caso.)

Métodos

as_dataset

Promova a saída intermediária para um conjunto de um DataSet.

Esse conjunto de os existirá após a execução da etapa. Observe que a saída deve ser promovida para ser um conjunto de dados para que a entrada subsequente seja consumida como DataSet. Se as_dataset não for chamado na saída, mas for chamado apenas na entrada, ele será um NOOP e a entrada não será consumida como um conjunto de dados. O exemplo de código abaixo mostra um uso correto de as_dataset:


   # as_dataset is called here and is passed to both the output and input of the next step.
   pipeline_data = PipelineData('output').as_dataset()

   step1 = PythonScriptStep(..., outputs=[pipeline_data])
   step2 = PythonScriptStep(..., inputs=[pipeline_data])
as_download

Consuma o PipelineData como download.

as_input

Crie um InputPortBinding e especifique um nome de entrada (mas use o modo padrão).

as_mount

Consuma o PipelineData como montagem.

create_input_binding

Criar Associação de entrada.

get_env_variable_name

Retornar o nome da variável de ambiente para este PipelineData.

as_dataset

Promova a saída intermediária para um conjunto de um DataSet.

Esse conjunto de os existirá após a execução da etapa. Observe que a saída deve ser promovida para ser um conjunto de dados para que a entrada subsequente seja consumida como DataSet. Se as_dataset não for chamado na saída, mas for chamado apenas na entrada, ele será um NOOP e a entrada não será consumida como um conjunto de dados. O exemplo de código abaixo mostra um uso correto de as_dataset:


   # as_dataset is called here and is passed to both the output and input of the next step.
   pipeline_data = PipelineData('output').as_dataset()

   step1 = PythonScriptStep(..., outputs=[pipeline_data])
   step2 = PythonScriptStep(..., inputs=[pipeline_data])
as_dataset()

Retornos

A saída intermediária como um DataSet.

Tipo de retorno

as_download

Consuma o PipelineData como download.

as_download(input_name=None, path_on_compute=None, overwrite=None)

Parâmetros

input_name
str
valor padrão: None

Use para especificar um nome para essa entrada.

path_on_compute
str
valor padrão: None

O caminho na computação para o qual baixar.

overwrite
bool
valor padrão: None

Use para indicar se os dados existentes devem ser substituídos.

Retornos

O InputPortBinding com esse PipelineData como a origem.

Tipo de retorno

as_input

Crie um InputPortBinding e especifique um nome de entrada (mas use o modo padrão).

as_input(input_name)

Parâmetros

input_name
str

Use para especificar um nome para essa entrada.

Retornos

O InputPortBinding com esse PipelineData como a origem.

Tipo de retorno

as_mount

Consuma o PipelineData como montagem.

as_mount(input_name=None)

Parâmetros

input_name
str
valor padrão: None

Use para especificar um nome para essa entrada.

Retornos

O InputPortBinding com esse PipelineData como a origem.

Tipo de retorno

create_input_binding

Criar Associação de entrada.

create_input_binding(input_name=None, mode=None, path_on_compute=None, overwrite=None)

Parâmetros

input_name
str
valor padrão: None

Nome da entrada.

mode
str
valor padrão: None

O modo para acessar o PipelineData ("montar" ou "baixar").

path_on_compute
str
valor padrão: None

Para o modo de "download", o caminho na computação que os dados residirão.

overwrite
bool
valor padrão: None

Para o modo de "download", substitua os dados existentes.

Retornos

O InputPortBinding com esse PipelineData como a origem.

Tipo de retorno

get_env_variable_name

Retornar o nome da variável de ambiente para este PipelineData.

get_env_variable_name()

Retornos

O nome da variável de ambiente.

Tipo de retorno

str

Atributos

data_type

Tipo de dados que serão produzidos.

Retornos

O nome do tipo de dados.

Tipo de retorno

str

datastore

Repositório de armazenamento o PipelineData residirá em.

Retornos

O objeto de repositório de armazenamento.

Tipo de retorno

name

Nome do objeto PipelineData.

Retornos

Nome.

Tipo de retorno

str