DatasetSnapshot Classe

Gère les instantanés du jeu de données avec des opérations pour obtenir un instantané, retourner son état et le convertir en dataframe.

Notes

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un objet DataSnapshot est retourné à partir de la méthode create_snapshot de la classe Dataset.

Le jeu de données instantané est une combinaison de Profil et d’une copie matérialisée facultative des données.

Pour en savoir plus sur les instantanés de jeux de données, accédez à https://aka.ms/azureml/howto/createsnapshots

Héritage
builtins.object
DatasetSnapshot

Constructeur

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Paramètres

workspace
<xref:azureml.core.Workspace.>
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
str
Obligatoire

Nom de l’instantané du jeu de données.

dataset_id
str
Obligatoire

Identificateur du jeu de données.

definition_version
str
Obligatoire

Version de définition du jeu de données.

time_stamp
datetime
Obligatoire

Heure de création instantané.

profile_action_id
str
Obligatoire

ID d’action de profil instantané.

datastore_name
str
Obligatoire

Nom du magasin de données instantané.

relative_path
str
Obligatoire

Chemin d’accès relatif aux données instantané.

dataset_name
str
Obligatoire

Nom du jeu de données.

Méthodes

compare_profiles

Compare le profil du jeu de données actuel au profil rhs_dataset.

Si les profils n’existent pas, cette méthode lève une exception.

get

Obtient l’instantané du jeu de données à partir de son nom.

get_all

Obtient tous les instantanés du jeu de données en question.

get_profile

Obtient le profil de l’instantané du jeu de données.

get_status

Obtient l’état de création de l’instantané du jeu de données.

is_data_snapshot_available

Vérifie si la copie matérialisée de l’instantané est disponible.

to_pandas_dataframe

Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe

Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

wait_for_completion

Attend la fin de la génération de DatasetSnapshot.

compare_profiles

Compare le profil du jeu de données actuel au profil rhs_dataset.

Si les profils n’existent pas, cette méthode lève une exception.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paramètres

rhs_dataset_snapshot
DatasetSnapshot
Obligatoire

Instantané de jeu de données avec lequel effectuer la comparaison.

include_columns
list[str]
valeur par défaut: None

Liste des noms de colonnes à inclure dans la comparaison.

exclude_columns
list[str]
valeur par défaut: None

Liste des noms de colonnes à exclure de la comparaison.

histogram_compare_method
HistogramCompareMethod
valeur par défaut: HistogramCompareMethod.WASSERSTEIN

Enum décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY.

Retours

Différence entre les profils.

Type de retour

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtient l’instantané du jeu de données à partir de son nom.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
str
Obligatoire

Nom de l’instantané du jeu de données.

dataset_name
Obligatoire

Nom du jeu de données.

dataset_id
uuid
Obligatoire

Identificateur du jeu de données.

Retours

Objet DatasetSnapshot.

Type de retour

get_all

Obtient tous les instantanés du jeu de données en question.

static get_all(workspace, dataset_name)

Paramètres

workspace
Workspace
Obligatoire

Espace de travail dans lequel le jeu de données est inscrit.

dataset_name
Obligatoire

Nom du jeu de données.

Retours

Liste des instantanés du jeu de données

Type de retour

get_profile

Obtient le profil de l’instantané du jeu de données.

get_profile()

Retours

DataProfile de l’instantané du jeu de données

Type de retour

<xref:azureml.dataprep.DataProfile>

get_status

Obtient l’état de création de l’instantané du jeu de données.

get_status()

Retours

État de l’instantané du jeu de données.

Type de retour

str

is_data_snapshot_available

Vérifie si la copie matérialisée de l’instantané est disponible.

is_data_snapshot_available()

Retours

Valeur true si l’instantané des données est disponible.

Type de retour

to_pandas_dataframe

Crée un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_pandas_dataframe()

Retours

DataFrame Pandas.

Type de retour

Remarques

Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.

to_spark_dataframe

Crée un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe()

Retours

DataFrame Spark.

Type de retour

Remarques

Le DataFrame Spark retourné n’est qu’un plan d’exécution et ne contient en fait aucune donnée, car Dataframes Spark sont évalués en différé. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.

wait_for_completion

Attend la fin de la génération de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Paramètres

show_output
bool
valeur par défaut: True

Indique si la méthode doit imprimer la sortie.

status_update_frequency
int
valeur par défaut: 10

Fréquence de mise à jour de l’état d’exécution de l’action en secondes.

Attributs

dataset_id

Obtient l’identificateur du jeu de données.

Retours

ID du jeu de données.

Type de retour

str

name

Obtient le nom de l’instantané du jeu de données.

Retours

Nom de l’instantané du jeu de données.

Type de retour

str

workspace

Obtient l’espace de travail Azure Machine Learning où le jeu de données est inscrit.

Retours

Espace de travail où le jeu de données est inscrit.

Type de retour