DataTransferStep Classe

Cria um passo de Pipeline Azure ML que transfere dados entre as opções de armazenamento.

O DataTransferStep suporta tipos de armazenamento comuns, tais como O Azure Blob Storage e Azure Data Lake como fontes e pias. Para mais informações, consulte a secção Comentários.

Para um exemplo de utilização do DataTransferStep, consulte o caderno https://aka.ms/pl-data-trans .

Herança
azureml.pipeline.core._data_transfer_step_base._DataTransferStepBase
DataTransferStep

Construtor

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

Parâmetros

name
<xref:str>

[Obrigatório] O nome do degrau.

source_data_reference
<xref:typing.Union>[<xref:azureml.pipeline.core.graph.InputPortBinding,azureml.data.data_reference.DataReference,azureml.pipeline.core.PortDataReference,azureml.pipeline.core.builder.PipelineData>]

[Obrigatório] Uma ligação de entrada que serve de fonte da operação de transferência de dados.

destination_data_reference
<xref:typing.Union>[<xref:azureml.pipeline.core.graph.InputPortBinding,azureml.pipeline.core.pipeline_output_dataset.PipelineOutputAbstractDataset,azureml.data.data_reference.DataReference>]

[Obrigatório] Uma ligação de saída que serve de destino à operação de transferência de dados.

compute_target
DataFactoryCompute, <xref:str>

[Obrigatório] Uma Fábrica de Dados Azure para utilizar para a transferência de dados.

source_reference_type
<xref:str>

Uma cadeia opcional especificando o tipo de source_data_reference . Os valores possíveis incluem: 'arquivo', 'directório'. Quando não especificado, é utilizado o tipo de caminho existente. Utilize este parâmetro para diferenciar entre um ficheiro e um diretório com o mesmo nome.

destination_reference_type
<xref:str>

Uma cadeia opcional especificando o tipo de destination_data_reference . Os valores possíveis incluem: 'arquivo', 'directório'. Quando não especificado, a Azure ML utiliza o tipo de caminho, referência de origem ou 'directório' existentes por essa ordem.

allow_reuse
<xref:bool>

Indica se o passo deve reutilizar os resultados anteriores quando re-executar com as mesmas definições. A reutilização é ativada por defeito. Se os argumentos de passo se mantiverem inalterados, a produção do anterior passo é reutilizada. Ao reutilizar o passo, em vez de transferir novamente os dados, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se utilizar os conjuntos de dados Azure Machine Learning como entradas, a reutilização é determinada se a definição do conjunto de dados mudou, não se os dados subjacentes foram alterados.

Observações

Este passo suporta os seguintes tipos de armazenamento como fontes e pias, exceto se formos anotados:

  • Armazenamento de Blobs do Azure

  • Azure Data Lake Storage Gen1 e Gen2

  • Base de Dados SQL do Azure

  • Base de Dados do Azure para PostgreSQL

  • Base de Dados do Azure para MySQL

Para a Base de Dados Azure SQL, deve utilizar a autenticação principal do serviço. Para mais informações, consulte a Autenticação Principal do Serviço. Para um exemplo de utilização da autenticação principal do serviço para a Base de Dados Azure SQL, consulte https://aka.ms/pl-data-trans .

Para estabelecer a dependência de dados entre etapas, utilize o get_output método para obter um objeto que PipelineData represente a saída deste passo de transferência de dados e pode ser usado como entrada para etapas posteriores no pipeline.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Para criar um InputPortBinding nome específico, pode combinar get_output() saída com a saída do as_input ou as_mount métodos de PipelineData .


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

Métodos

create_node

Crie um nó a partir do passo DataTransfer e adicione-o ao gráfico dado.

Este método não se destina a ser utilizado diretamente. Quando um gasoduto é instantâneo com este passo, a Azure ML passa automaticamente os parâmetros necessários através deste método para que o passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

get_output

Obtenha a saída do passo como PipelineData.

create_node

Crie um nó a partir do passo DataTransfer e adicione-o ao gráfico dado.

Este método não se destina a ser utilizado diretamente. Quando um gasoduto é instantâneo com este passo, a Azure ML passa automaticamente os parâmetros necessários através deste método para que o passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

graph
Graph

O objeto gráfico para adicionar o nó.

default_datastore
<xref:typing.Union>[<xref:azureml.data.azure_storage_datastore.AbstractAzureStorageDatastore,azureml.data.azure_data_lake_datastore.AzureDataLakeDatastore>]

A loja de dados predefinido.

context
<xref:azureml.pipeline.core._GraphContext>

O contexto gráfico.

Devoluções

O nó criado.

Tipo de retorno

get_output

Obtenha a saída do passo como PipelineData.

get_output()

Devoluções

A saída do degrau.

Tipo de retorno

Observações

Para estabelecer a dependência de dados entre get_output etapas, utilize o método para obter um objeto que PipelineData represente a saída deste passo de transferência de dados e pode ser usado como entrada para etapas posteriores no pipeline.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Para criar um InputPortBinding nome específico, pode combinar get_output() métodos de chamada as_input ou as_mount ajudante.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")