DatasetConsumptionConfig Classe

Represente como entregar o conjunto de dados a um alvo de computação.

Herança
builtins.object
DatasetConsumptionConfig

Construtor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parâmetros

name
<xref:str>

O nome do conjunto de dados na execução, que pode ser diferente do nome registado. O nome será registado como variável ambiental e pode ser usado em plano de dados.

dataset
AbstractDataset ou PipelineParameter ou OutputDatasetConfig

O conjunto de dados que será consumido durante a corrida.

mode
<xref:str>

Define como o conjunto de dados deve ser entregue ao alvo do cálculo. Existem três modos:

  1. 'direto': consumir o conjunto de dados como conjunto de dados.
  2. 'download': descarregue o conjunto de dados e consuma o conjunto de dados como caminho descarregado.
  3. 'montagem': monte o conjunto de dados e consuma o conjunto de dados como caminho de montagem.
  4. 'hdfs': consumir o conjunto de dados a partir da trajetória de HDFs resolvido (atualmente apenas suportado no cálculo synapseSpark).
path_on_compute
<xref:str>

O caminho-alvo no cálculo para disponibilizar os dados em. A estrutura da pasta dos dados de origem será mantida, no entanto, poderemos adicionar prefixos a esta estrutura de pasta para evitar a colisão. Utilize tabular_dataset.to_path para ver a estrutura da pasta de saída.

Métodos

as_download

Desfie o modo de download.

Na execução submetida, os ficheiros no conjunto de dados serão descarregados para o caminho local no alvo do cálculo. A localização de descarregamento pode ser recuperada a partir dos valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Desa ajuste o modo para hdfs.

Na sinapse submetida, os ficheiros nos conjuntos de dados serão convertidos para o caminho local no alvo do cálculo. O caminho dos HDFs pode ser recuperado dos valores do argumento e das variáveis ambiente os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Desa ajuste o modo para montar.

Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no alvo do cálculo. O ponto de montagem pode ser recuperado a partir dos valores do argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Desfie o modo de download.

Na execução submetida, os ficheiros no conjunto de dados serão descarregados para o caminho local no alvo do cálculo. A localização de descarregamento pode ser recuperada a partir dos valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parâmetros

path_on_compute
<xref:str>
valor predefinido: None

O caminho-alvo no cálculo para disponibilizar os dados em.

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, a localização de descarregamento será o caminho do único ficheiro descarregado. Caso contrário, a localização do download será o caminho da pasta de encerramento para todos os ficheiros descarregados.

Se path_on_compute começa com um /, então será tratado como um caminho absoluto. Se não começar com um /, então será tratado como um caminho relativo em relação ao diretório de trabalho. Se especificou um caminho absoluto, certifique-se de que o trabalho tem permissão para escrever a esse diretório.

as_hdfs

Desa ajuste o modo para hdfs.

Na sinapse submetida, os ficheiros nos conjuntos de dados serão convertidos para o caminho local no alvo do cálculo. O caminho dos HDFs pode ser recuperado dos valores do argumento e das variáveis ambiente os.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o caminho hdfs será o caminho do único ficheiro. Caso contrário, o caminho hdfs será o caminho da pasta de enclosão para todos os ficheiros montados.

as_mount

Desa ajuste o modo para montar.

Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no alvo do cálculo. O ponto de montagem pode ser recuperado a partir dos valores do argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parâmetros

path_on_compute
<xref:str>
valor predefinido: None

O caminho-alvo no cálculo para disponibilizar os dados em.

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o ponto de montagem será o caminho do único ficheiro montado. Caso contrário, o ponto de montagem será o caminho da pasta de enclosão para todos os ficheiros montados.

Se path_on_compute começa com um /, então será tratado como um caminho absoluto. Se não começar com um /, então será tratado como um caminho relativo em relação ao diretório de trabalho. Se especificou um caminho absoluto, certifique-se de que o trabalho tem permissão para escrever a esse diretório.

Atributos

name

O nome da entrada.

Devoluções

O nome da entrada.