AbstractDataset Classe
Classe de base des jeux de données dans Azure Machine Learning.
Veuillez référencer la classe TabularDatasetFactory et la classe FileDatasetFactory pour créer des instances du jeu de données.
Constructeur De classe AbstractDataset.
Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe et FileDatasetFactory de la classe.
- Héritage
-
builtins.objectAbstractDataset
Constructeur
AbstractDataset()
Méthodes
add_tags |
Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données. |
as_named_input |
Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution. |
get_all |
Récupère tous les jeux de données inscrits dans l’espace de travail. |
get_by_id |
Récupère un jeu de données qui est enregistré dans l’espace de travail. |
get_by_name |
Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription. |
get_partition_key_values |
Retourne des valeurs de clés uniques de partition_keys. Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None
|
register |
Inscrit le jeu de données dans l’espace de travail fourni. |
remove_tags |
Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données. |
unregister_all_versions |
Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail. |
update |
Effectuer une mise à jour sur place du jeu de données. |
add_tags
Ajoute des paires clé-valeur au dictionnaire de balises de ce jeu de données.
add_tags(tags=None)
Paramètres
Retours
Objet de jeu de données mis à jour.
Type de retour
as_named_input
Fournissez un nom pour ce jeu de données qui sera utilisé pour récupérer le jeu de données matérialisé dans l’exécution.
as_named_input(name)
Paramètres
Retours
Objet de configuration décrivant la manière dont le jeu de données doit être matérialisé dans l’exécution.
Type de retour
Remarques
Le nom ici ne s’applique qu’à l’intérieur d’une exécution Azure Machine Learning. Le nom doit contenir uniquement des caractères alphanumériques et des traits de soulignement pour pouvoir être mis à disposition en tant que variable d’environnement. Vous pouvez utiliser ce nom pour récupérer le jeu de données dans le contexte d’une exécution à l’aide de deux approches :
Variable d’environnement :
le nom sera le nom de la variable d’environnement et le jeu de données matérialisé sera disponible en tant que valeur de la variable d’environnement. Si le jeu de données est téléchargé ou monté, la valeur sera le chemin d’accès téléchargé/monté. Par exemple :
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Notes
Si le jeu de données est défini sur le mode direct, la valeur sera l’ID du jeu de données. Ensuite, vous pouvez :
récupérer l’objet DataSet en procédant Dataset.get_by_id(OS.environ['foo'])
Run.input_datasets :
il s’agit d’un dictionnaire dans lequel la clé sera le nom du jeu de données que vous avez spécifié dans cette méthode et la valeur sera le jeu de données matérialisé. Pour le jeu de données téléchargé et monté, la valeur sera le chemin d’accès téléchargé/monté. Pour le mode direct, la valeur sera le même objet de jeu de données que vous avez spécifié dans votre script d’envoi de travail.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Récupère tous les jeux de données inscrits dans l’espace de travail.
static get_all(workspace)
Paramètres
- workspace
- Workspace
Espace de travail AzureML existant dans lequel les jeux de données ont été inscrits.
Retours
Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription.
Type de retour
get_by_id
Récupère un jeu de données qui est enregistré dans l’espace de travail.
static get_by_id(workspace, id, **kwargs)
Paramètres
- workspace
- Workspace
Espace de travail AzureML existant dans lequel le jeu de données est enregistré.
Retours
Objet de jeu de données. Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés.
Type de retour
get_by_name
Récupère un jeu de données inscrit dans l’espace de travail par son nom d’inscription.
static get_by_name(workspace, name, version='latest', **kwargs)
Paramètres
- workspace
- Workspace
Espace de travail AzureML existant dans lequel le jeu de données a été inscrit.
Retours
Objet de jeu de données inscrit.
Type de retour
get_partition_key_values
Retourne des valeurs de clés uniques de partition_keys.
Vérifie si partition_keys est un sous-ensemble valide d’un jeu complet de clés de partition, retourne des valeurs de clé uniques de partition_keys, fonction par défaut pour retourner les combinaisons de clés uniques en utilisant l’ensemble des clés de partition de ce jeu de données si partition_keys est défini sur None
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Paramètres
register
Inscrit le jeu de données dans l’espace de travail fourni.
register(workspace, name, description=None, tags=None, create_new_version=False)
Paramètres
Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.
- create_new_version
- bool
Valeur booléenne pour inscrire le jeu de données en tant que nouvelle version sous le nom spécifié.
Retours
Objet de jeu de données inscrit.
Type de retour
remove_tags
Supprime les clés spécifiées du dictionnaire de balises pour ce jeu de données.
remove_tags(tags=None)
Paramètres
Retours
Objet de jeu de données mis à jour.
Type de retour
unregister_all_versions
Annule l’inscription de toutes les versions sous le nom d’inscription de ce jeu de données dans l’espace de travail.
unregister_all_versions()
Remarques
L’opération ne modifie pas les données sources.
update
Effectuer une mise à jour sur place du jeu de données.
update(description=None, tags=None)
Paramètres
- description
- str
Nouvelle description à utiliser pour le jeu de données. Cette description remplace la description existante. La valeur par défaut est la description existante. Pour effacer la description, entrez une chaîne vide.
Dictionnaire de balises avec lesquelles mettre à jour le jeu de données. Ces balises remplacent les balises existantes pour le jeu de données. Prend la valeur par défaut d’étiquettes existantes. Pour effacer les balises, entrez un dictionnaire vide.
Retours
Objet de jeu de données mis à jour.
Type de retour
Attributs
data_changed_time
Retourne l’heure de modification des données sources.
Retours
Heure à laquelle la modification la plus récente s’est produite dans les données sources.
Type de retour
Remarques
L’heure de modification des données est disponible pour la source de données basée sur des fichiers. Aucune n’est retournée lorsque la source de données n’est pas prise en charge pour la vérification lorsque la modification s’est produite.
description
id
Retourne l’identificateur du jeu de données.
Retours
ID du jeu de données. Si le jeu de données n’est pas enregistré dans un espace de travail, l’ID aura la valeur None.
Type de retour
name
partition_keys
tags
version
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour