AbstractDataset Classe

Classe de base des jeux de données dans Azure Machine Learning.

Veuillez référencer la classe TabularDatasetFactory et la classe FileDatasetFactory pour créer des instances du jeu de données.

Constructeur De classe AbstractDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe et FileDatasetFactory de la classe.

Héritage
builtins.object
AbstractDataset

Constructeur

AbstractDataset()

Méthodes

add_tags

Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.

as_named_input

Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.

get_all

Récupère tous les jeux de données inscrits dans l’espace de travail.

get_by_id

Récupère un jeu de données qui est enregistré dans l’espace de travail.

get_by_name

Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.

get_partition_key_values

Retourne des valeurs de clés uniques de partition_keys.

Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Inscrit le jeu de données dans l’espace de travail fourni.

remove_tags

Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.

unregister_all_versions

Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.

update

Effectuer une mise à jour sur place du jeu de données.

add_tags

Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.

add_tags(tags=None)

Paramètres

tags
dict[str, str]
Obligatoire

Dictionnaire de balises à ajouter.

Retours

Objet de jeu de données mis à jour.

Type de retour

as_named_input

Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.

as_named_input(name)

Paramètres

name
str
Obligatoire

Nom du jeu de données pour l’exécution.

Retours

Objet de configuration décrivant la manière dont le jeu de données doit être matérialisé dans l’exécution.

Type de retour

Remarques

Le nom ici ne s’applique qu’à l’intérieur d’une exécution Azure Machine Learning. Le nom doit contenir uniquement des caractères alphanumériques et des traits de soulignement pour pouvoir être mis à disposition en tant que variable d’environnement. Vous pouvez utiliser ce nom pour récupérer le jeu de données dans le contexte d’une exécution à l’aide de deux approches :

  • Variable d’environnement :

    le nom sera le nom de la variable d’environnement et le jeu de données matérialisé sera disponible en tant que valeur de la variable d’environnement. Si le jeu de données est téléchargé ou monté, la valeur sera le chemin d’accès téléchargé/monté. Par exemple :


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Notes

Si le jeu de données est défini sur le mode direct, la valeur sera l’ID du jeu de données. Ensuite, vous pouvez :

récupérer l’objet DataSet en procédant Dataset.get_by_id(OS.environ['foo'])

  • Run.input_datasets :

    il s’agit d’un dictionnaire dans lequel la clé sera le nom du jeu de données que vous avez spécifié dans cette méthode et la valeur sera le jeu de données matérialisé. Pour le jeu de données téléchargé et monté, la valeur sera le chemin d’accès téléchargé/monté. Pour le mode direct, la valeur sera le même objet de jeu de données que vous avez spécifié dans votre script d’envoi de travail.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Récupère tous les jeux de données inscrits dans l’espace de travail.

static get_all(workspace)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail AzureML existant dans lequel les jeux de données ont été inscrits.

Retours

Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription.

Type de retour

get_by_id

Récupère un jeu de données qui est enregistré dans l’espace de travail.

static get_by_id(workspace, id, **kwargs)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail AzureML existant dans lequel le jeu de données est enregistré.

id
str
Obligatoire

ID du jeu de données.

Retours

Objet de jeu de données. Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés.

Type de retour

get_by_name

Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.

static get_by_name(workspace, name, version='latest', **kwargs)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail AzureML existant dans lequel le jeu de données a été inscrit.

name
str
Obligatoire

Nom d’inscription.

version
int
Obligatoire

Version d’inscription. La valeur par défaut est « latest ».

Retours

Objet de jeu de données inscrit.

Type de retour

get_partition_key_values

Retourne des valeurs de clés uniques de partition_keys.

Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Paramètres

partition_keys
list[str]
Obligatoire

clés de partition

register

Inscrit le jeu de données dans l’espace de travail fourni.

register(workspace, name, description=None, tags=None, create_new_version=False)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail pour inscrire le jeu de données.

name
str
Obligatoire

Nom avec lequel inscrire le jeu de données.

description
str
Obligatoire

Description textuelle du jeu de données. La valeur par défaut est None.

tags
dict[str, str]
Obligatoire

Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

create_new_version
bool
Obligatoire

Valeur booléenne pour inscrire le jeu de données en tant que nouvelle version sous le nom spécifié.

Retours

Objet de jeu de données inscrit.

Type de retour

remove_tags

Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.

remove_tags(tags=None)

Paramètres

tags
list[str]
Obligatoire

Liste des clés à supprimer.

Retours

Objet de jeu de données mis à jour.

Type de retour

unregister_all_versions

Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.

unregister_all_versions()

Remarques

L’opération ne modifie pas les données sources.

update

Effectuer une mise à jour sur place du jeu de données.

update(description=None, tags=None)

Paramètres

description
str
Obligatoire

Nouvelle description à utiliser pour le jeu de données. Cette description remplace la description existante. La valeur par défaut est la description existante. Pour effacer la description, entrez une chaîne vide.

tags
dict[str, str]
Obligatoire

Dictionnaire de balises avec lesquelles mettre à jour le jeu de données. Ces balises remplacent les balises existantes pour le jeu de données. Prend la valeur par défaut d’étiquettes existantes. Pour effacer les balises, entrez un dictionnaire vide.

Retours

Objet de jeu de données mis à jour.

Type de retour

Attributs

data_changed_time

Retourne l’heure de modification des données sources.

Retours

Heure à laquelle la modification la plus récente s’est produite dans les données sources.

Type de retour

Remarques

L’heure de modification des données est disponible pour la source de données basée sur des fichiers. Aucune n’est retournée lorsque la source de données n’est pas prise en charge pour la vérification lorsque la modification s’est produite.

description

Retourne la description de l’inscription.

Retours

Description du jeu de données.

Type de retour

str

id

Retourne l’identificateur du jeu de données.

Retours

ID du jeu de données. Si le jeu de données n’est pas enregistré dans un espace de travail, l’ID aura la valeur None.

Type de retour

str

name

Retourne le nom de l’inscription.

Retours

Nom du jeu de données.

Type de retour

str

partition_keys

Retourne les clés de partition.

Retours

clés de partition

Type de retour

tags

Retourne les balises de l’inscription.

Retours

Balises du jeu de données.

Type de retour

str

version

Retourne la version d’inscription.

Retours

Version du jeu de données.

Type de retour

int