DatasetConsumptionConfig Classe

Riferimento

Rappresentare come distribuire il set di dati a una destinazione di calcolo.

Rappresentare come recapitare il set di dati alla destinazione di calcolo.

Ereditarietà: builtins.object

DatasetConsumptionConfig

Costruttore

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametri

name: str

Necessario

Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati.

dataset: AbstractDataset oppure PipelineParameter oppure OutputDatasetConfig

Necessario

Set di dati che verrà utilizzato nell'esecuzione.

mode: str

valore predefinito: direct

Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:

'direct': usare il set di dati come set di dati.
'download': scaricare il set di dati e usare il set di dati come percorso scaricato.
'mount': montare il set di dati e usare il set di dati come percorso di montaggio.
'hdfs': usare il set di dati dal percorso hdfs risolto (attualmente supportato solo nel calcolo SynapseSpark).

path_on_compute: str

valore predefinito: None

Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. Usare tabular_dataset.to_path per visualizzare la struttura delle cartelle di output.

name: str

Necessario

Nome del set di dati nell'esecuzione, che può essere diverso dal nome registrato. Il nome verrà registrato come variabile di ambiente e può essere usato nel piano dati.

dataset: Dataset oppure PipelineParameter oppure tuple(Workspace, str) oppure tuple(Workspace, str, str) oppure OutputDatasetConfig

Necessario

Set di dati da recapitare, come oggetto Dataset, Parametro pipeline che inserisce un set di dati, una tupla di (area di lavoro, nome set di dati) o una tupla di (area di lavoro, nome set di dati, versione del set di dati). Se viene specificato solo un nome, DatasetConsumptionConfig userà la versione più recente del set di dati.

mode: str

Necessario

Definisce il modo in cui il set di dati deve essere recapitato alla destinazione di calcolo. Esistono tre modalità:

'direct': usare il set di dati come set di dati.
'download': scaricare il set di dati e usare il set di dati come percorso scaricato.
'mount': montare il set di dati e usare il set di dati come percorso di montaggio.
'hdfs': usare il set di dati dal percorso hdfs risolto (attualmente supportato solo nel calcolo SynapseSpark).

path_on_compute: str

Necessario

Percorso di destinazione nel calcolo in cui rendere disponibili i dati. La struttura di cartelle dei dati di origine verrà mantenuta, tuttavia, è possibile aggiungere prefissi a questa struttura di cartelle per evitare conflitti. È consigliabile chiamare tabular_dataset.to_path per visualizzare la struttura della cartella di output.

Metodi

as_download

Impostare la modalità da scaricare.

Nell'esecuzione inviata i file nel set di dati verranno scaricati nel percorso locale nella destinazione di calcolo. Il percorso di download può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Impostare la modalità su hdfs.

Nell'esecuzione di synapse inviata i file nei set di dati verranno convertiti nel percorso locale nella destinazione di calcolo. Il percorso hdfs può essere recuperato dai valori degli argomenti e dalle variabili di ambiente del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Impostare la modalità di montaggio.

Nell'esecuzione inviata i file nei set di dati verranno montati nel percorso locale nella destinazione di calcolo. Il punto di montaggio può essere recuperato dai valori degli argomenti e dal campo input_datasets del contesto di esecuzione.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Impostare la modalità da scaricare.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametri

path_on_compute: str

valore predefinito: None

Percorso di destinazione nel calcolo in cui rendere disponibili i dati.

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il percorso di download sarà il percorso del singolo file scaricato. In caso contrario, il percorso di download sarà il percorso della cartella di inclusione per tutti i file scaricati.

Se path_on_compute inizia con un oggetto /, verrà considerato come un percorso assoluto. Se non inizia con un oggetto /, verrà considerato come un percorso relativo rispetto alla directory di lavoro. Se è stato specificato un percorso assoluto, assicurarsi che il processo disponga dell'autorizzazione per la scrittura in tale directory.

as_hdfs

Impostare la modalità su hdfs.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il percorso hdfs sarà il percorso del singolo file. In caso contrario, il percorso hdfs sarà il percorso della cartella di inclusione per tutti i file montati.

as_mount

Impostare la modalità di montaggio.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametri

path_on_compute: str

valore predefinito: None

Percorso di destinazione nel calcolo in cui rendere disponibili i dati.

Commenti

Quando il set di dati viene creato dal percorso di un singolo file, il punto di montaggio sarà il percorso del singolo file montato. In caso contrario, il punto di montaggio sarà il percorso della cartella di inclusione per tutti i file montati.

Share via

DatasetConsumptionConfig Classe

Costruttore

Parametri

Metodi

as_download

Parametri

Commenti

as_hdfs

Commenti

as_mount

Parametri

Commenti

Attributi

name

Restituisce

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive