DatasetConsumptionConfig Classe

Representar como entregar o conjunto de dados para um destino de computação.

Representa como entregar o conjunto de dados para o destino de computação.

Herança
builtins.object
DatasetConsumptionConfig

Construtor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parâmetros

name
str
Obrigatório

O nome do conjunto de dados na execução, que pode ser diferente do nome registrado. O nome é registrado como variável de ambiente e pode ser usado no plano de dados.

dataset
AbstractDataset ou PipelineParameter ou OutputDatasetConfig
Obrigatório

O conjunto de dados que será consumidos na execução.

mode
str
valor padrão: direct

Define a forma de entregar o conjunto de dados ao destino de computação. Há três modos:

  1. "direct": consumir o conjunto de dados como um conjunto de dados.
  2. "download": baixar e consumir o conjunto de dados como o caminho baixado.
  3. "mount": montar e consumir o conjunto de dados como caminho de montagem.
  4. 'hdfs': consumir o conjunto de dados do caminho hdfs resolvido (atualmente, há suporte apenas para a computação do SynapseSpark).
path_on_compute
str
valor padrão: None

O caminho de destino na computação na qual disponibilizar os dados. A estrutura de pastas dos dados de origem é mantida, mas podemos adicionar prefixos a essa estrutura de pastas para evitar a colisão. Use tabular_dataset.to_path para ver a estrutura da pasta de saída.

name
str
Obrigatório

O nome do conjunto de dados na execução, que pode ser diferente do nome registrado. O nome é registrado como variável de ambiente e pode ser usado no plano de dados.

dataset
Dataset ou PipelineParameter ou tuple(Workspace, str) ou tuple(Workspace, str, str) ou OutputDatasetConfig
Obrigatório

O conjunto de dados a ser entregue, como um objeto De conjunto de dados, o Parâmetro de Pipeline que ingere um conjunto de dados, uma tupla de (workspace, nome do conjunto de dados) ou uma tupla de (workspace, nome do conjunto de dados, versão do conjunto de dados). Se apenas um nome for fornecido, o DatasetConsumptionConfig usará a versão mais recente do conjunto de dados.

mode
str
Obrigatório

Define a forma de entregar o conjunto de dados ao destino de computação. Há três modos:

  1. "direct": consumir o conjunto de dados como um conjunto de dados.
  2. "download": baixar e consumir o conjunto de dados como o caminho baixado.
  3. "mount": montar e consumir o conjunto de dados como caminho de montagem.
  4. 'hdfs': consumir o conjunto de dados do caminho hdfs resolvido (atualmente, há suporte apenas para a computação do SynapseSpark).
path_on_compute
str
Obrigatório

O caminho de destino na computação na qual disponibilizar os dados. A estrutura de pastas dos dados de origem é mantida, mas podemos adicionar prefixos a essa estrutura de pastas para evitar a colisão. É recomendável chamar tabular_dataset.to_path para ver a estrutura da pasta de saída.

Métodos

as_download

Definir o modo para download.

Na execução enviada, os arquivos no conjunto de dados serão baixados para o caminho local no destino de computação. O local de download pode ser recuperado dos valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Definir o modo como hdfs.

Na execução do synapse enviado, os arquivos nos conjuntos de dados serão convertidos em caminho local no destino de computação. O caminho hdfs pode ser recuperado dos valores de argumento e das variáveis de ambiente do sistema operacional.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Definir o modo para montagem.

Na execução enviada, os arquivos do conjunto de dados são montados no caminho local no destino de computação. O ponto de montagem pode ser recuperado nos valores de argumento e no campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Definir o modo para download.

Na execução enviada, os arquivos no conjunto de dados serão baixados para o caminho local no destino de computação. O local de download pode ser recuperado dos valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parâmetros

path_on_compute
str
valor padrão: None

O caminho de destino na computação para disponibilizar os dados.

Comentários

Quando o conjunto de dados for criado no caminho de um único arquivo, o local de download será o caminho do único arquivo baixado. Caso contrário, o local de download será o caminho da pasta em anexo para todos os arquivos baixados.

Se path_on_compute começar com uma /, será tratado como caminho absoluto. Se não começar com uma /, será tratado como caminho relativo para o diretório de trabalho. Se você tiver especificado um caminho absoluto, verifique se o trabalho tem permissão para gravar nesse diretório.

as_hdfs

Definir o modo como hdfs.

Na execução do synapse enviado, os arquivos nos conjuntos de dados serão convertidos em caminho local no destino de computação. O caminho hdfs pode ser recuperado dos valores de argumento e das variáveis de ambiente do sistema operacional.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Comentários

Quando o conjunto de dados for criado com base no caminho de um só arquivo, o caminho do hdfs será o caminho do único arquivo. Caso contrário, o caminho hdfs será o caminho da pasta em anexo para todos os arquivos montados.

as_mount

Definir o modo para montagem.

Na execução enviada, os arquivos do conjunto de dados são montados no caminho local no destino de computação. O ponto de montagem pode ser recuperado nos valores de argumento e no campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parâmetros

path_on_compute
str
valor padrão: None

O caminho de destino na computação para disponibilizar os dados.

Comentários

Quando o conjunto de dados for criado no caminho de um único arquivo, o ponto de montagem será o caminho do único arquivo montado. Caso contrário, o ponto de montagem será o caminho da pasta em anexo para todos os arquivos montados.

Se path_on_compute começar com uma /, será tratado como caminho absoluto. Se não começar com uma /, será tratado como caminho relativo para o diretório de trabalho. Se você tiver especificado um caminho absoluto, verifique se o trabalho tem permissão para gravar nesse diretório.

Atributos

name

Nome da entrada.

Retornos

Nome da entrada.