DatasetSnapshot Klas

Beheert moment opnamen van gegevensset met bewerkingen voor het ophalen van een snapsot, de status retour neren en deze converteren naar een data frame.

Notitie

Deze klasse is afgeschaft. Zie https://aka.ms/dataset-deprecation voor meer informatie.

Er wordt een DataSnapshot-object geretourneerd op basis van de create_snapshot methode van de Dataset klasse.

Overname
builtins.object
DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Methoden

compare_profiles

Vergelijk het huidige dataset-profiel met rhs_dataset profiel.

Als er geen profielen bestaan, wordt door deze methode een uitzonde ring gegenereerd.

get

De moment opname van de gegevensset op naam van de moment opname ophalen.

get_all

Alle moment opnamen van de opgegeven gegevensset ophalen.

get_profile

Het profiel van de moment opname van de gegevensset ophalen.

get_status

De status voor het maken van de gegevensset-moment opname ophalen.

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de moment opname beschikbaar is.

to_pandas_dataframe

Maak een Panda data frame door de gegevens te laden die zijn opgeslagen met de moment opname.

to_spark_dataframe

Een Spark-data frame maken door de gegevens die met de moment opname zijn opgeslagen, te laden.

wait_for_completion

Wacht tot de DatasetSnapshot generaton is voltooid.

compare_profiles

Vergelijk het huidige dataset-profiel met rhs_dataset profiel.

Als er geen profielen bestaan, wordt door deze methode een uitzonde ring gegenereerd.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parameters

rhs_dataset_snapshot
DatasetSnapshot

De moment opname van de gegevensset waarmee moet worden vergeleken.

include_columns
list[<xref:str>]
standaardwaarde: None

Een lijst met kolom namen die moeten worden opgenomen in de vergelijking.

exclude_columns
list[<xref:str>]
standaardwaarde: None

Een lijst met kolom namen die in de vergelijking moeten worden uitgesloten.

histogram_compare_method
HistogramCompareMethod
standaardwaarde: HistogramCompareMethod.WASSERSTEIN

Een enum met een beschrijving van de vergelijkings methode, bijvoorbeeld: WASSERSTEIN of ENERGY.

Retouren

Het verschil tussen de profielen.

Retourtype

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

De moment opname van de gegevensset op naam van de moment opname ophalen.

get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parameters

workspace
Workspace

De werk ruimte waarin de gegevensset is geregistreerd.

snapshot_name
<xref:str>

De naam van de moment opname van de gegevensset.

dataset_name

De naam van de gegevensset.

dataset_id
<xref:uuid>

De id van de gegevensset.

Retouren

Een DatasetSnapshot-object.

Retourtype

get_all

Alle moment opnamen van de opgegeven gegevensset ophalen.

get_all(workspace, dataset_name)

Parameters

workspace
Workspace

De werk ruimte waarin de gegevensset is geregistreerd.

dataset_name

De naam van de gegevensset.

Retouren

Een lijst met moment opnamen van gegevensset

Retourtype

get_profile

Het profiel van de moment opname van de gegevensset ophalen.

get_profile()

Retouren

De DataProfile van de moment opname van de gegevensset

Retourtype

get_status

De status voor het maken van de gegevensset-moment opname ophalen.

get_status()

Retouren

De status van de moment opname van de gegevensset.

Retourtype

<xref:str>

is_data_snapshot_available

Controleer of de gerealiseerde kopie van de moment opname beschikbaar is.

is_data_snapshot_available()

Retouren

Waar als de moment opname van de gegevens beschikbaar is.

Retourtype

<xref:bool>

to_pandas_dataframe

Maak een Panda data frame door de gegevens te laden die zijn opgeslagen met de moment opname.

to_pandas_dataframe()

Retouren

Een Panda data frame.

Retourtype

Opmerkingen

De Panda data frame is volledig in het geheugen gematerialeerd. Als de moment opname is gemaakt met create_data_snapshot=False , wordt er een uitzonde ring gegenereerd. Gebruik de functie om te controleren of de moment opname gegevens bevat is_data_snapshot_available .

to_spark_dataframe

Een Spark-data frame maken door de gegevens die met de moment opname zijn opgeslagen, te laden.

to_spark_dataframe()

Retouren

Een Spark-data frame.

Retourtype

Opmerkingen

De Spark-data frame die wordt geretourneerd, is alleen een uitvoerings plan en bevat geen gegevens, omdat Spark dataframes vertraagd geƫvalueerd. Als de moment opname is gemaakt met create_data_snapshot=False , wordt er een uitzonde ring gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Gebruik om te controleren of de moment opname gegevens bevat is_data_snapshot_available .

wait_for_completion

Wacht tot de DatasetSnapshot generaton is voltooid.

wait_for_completion(show_output=True, status_update_frequency=10)

Parameters

show_output
<xref:bool>
standaardwaarde: True

Hiermee wordt aangegeven of de uitvoer van de methode wordt afgedrukt.

status_update_frequency
<xref:int>
standaardwaarde: 10

De status van de actie-Update frequentie in seconden.

Kenmerken

dataset_id

Haal de gegevensset-id op.

Retouren

De gegevensset-ID.

Retourtype

<xref:str>

name

De momentopname naam van de gegevensset ophalen.

Retouren

De momentopname naam van de gegevensset.

Retourtype

<xref:str>

workspace

Haal de Azure Machine Learning-werk ruimte op waarin de gegevensset is geregistreerd.

Retouren

De werk ruimte waarin de gegevensset is geregistreerd.

Retourtype