DatasetConsumptionConfig Classe

Représente comment fournir le jeu de données à une cible de calcul.

Représente comment remettre le jeu de données à la cible de calcul.

Héritage
builtins.object
DatasetConsumptionConfig

Constructeur

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Paramètres

name
str
Obligatoire

Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données.

dataset
AbstractDataset ou PipelineParameter ou OutputDatasetConfig
Obligatoire

Jeu de données qui sera consommé dans l’exécution.

mode
str
valeur par défaut: direct

Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :

  1. « direct » : utilise le jeu de données en tant que jeu de données.
  2. « télécharger » : télécharge le jeu de données et l’utilise en tant que chemin d’accès téléchargé.
  3. « monter » : monte le jeu de données et l’utilise en tant que chemin de montage.
  4. « hdfs » : utilise le jeu de données à partir du chemin d’accès hdfs résolu (actuellement pris en charge uniquement sur le calcul SynapseSpark).
path_on_compute
str
valeur par défaut: None

Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Utilisez tabular_dataset.to_path pour afficher la structure des dossiers de sortie.

name
str
Obligatoire

Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données.

dataset
Dataset ou PipelineParameter ou tuple(Workspace, str) ou tuple(Workspace, str, str) ou OutputDatasetConfig
Obligatoire

Jeu de données à remettre, sous la forme d’un objet Dataset, paramètre de pipeline qui ingère un jeu de données, un tuple de (espace de travail, nom du jeu de données) ou un tuple de (espace de travail, nom du jeu de données, version du jeu de données). Si seul un nom est fourni, datasetConsumptionConfig utilise la dernière version du jeu de données.

mode
str
Obligatoire

Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :

  1. « direct » : utilise le jeu de données en tant que jeu de données.
  2. « télécharger » : télécharge le jeu de données et l’utilise en tant que chemin d’accès téléchargé.
  3. « monter » : monte le jeu de données et l’utilise en tant que chemin de montage.
  4. « hdfs » : utilise le jeu de données à partir du chemin d’accès hdfs résolu (actuellement pris en charge uniquement sur le calcul SynapseSpark).
path_on_compute
str
Obligatoire

Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Nous vous recommandons d’appeler tabular_dataset.to_path pour voir la structure du dossier de sortie.

Méthodes

as_download

Définissez le mode sur « télécharger ».

Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Définissez le mode sur « hdfs ».

Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Définissez le mode sur « monter ».

Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Définissez le mode sur « télécharger ».

Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin d’accès cible sur le calcul auquel rendre les données disponibles.

Remarques

Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, l’emplacement de téléchargement est le chemin d’accès du fichier téléchargé unique. Sinon, l’emplacement de téléchargement sera le chemin d’accès du dossier englobant tous les fichiers téléchargés.

Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.

as_hdfs

Définissez le mode sur « hdfs ».

Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Remarques

Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le chemin hdfs est le chemin d’accès du fichier unique. Dans le cas contraire, le chemin hdfs sera le chemin d’accès du dossier englobant tous les fichiers montés.

as_mount

Définissez le mode sur « monter ».

Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin d’accès cible sur le calcul auquel rendre les données disponibles.

Remarques

Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le point de montage est le chemin d’accès du fichier monté unique. Dans le cas contraire, le point de montage sera le chemin d’accès du dossier englobant tous les fichiers montés.

Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.

Attributs

name

Nom de l’entrée.

Retours

Nom de l’entrée.