DatasetDefinition Klas

Definieert een reeks stappen die aangeven hoe gegevens in een gegevensset moeten worden gelezen en getransformeerd.

Notitie

Deze klasse is afgeschaft. Voor meer informatie raadpleegt u https://aka.ms/dataset-deprecation.

Een gegevensset die is geregistreerd in een Azure Machine Learning-werkruimte, kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.

Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.

Definities van gegevenssets ondersteunen alle transformaties die worden vermeld voor de <xref:azureml.dataprep.Dataflow> klasse: zie http://aka.ms/azureml/howto/transformdata. Ga naar https://aka.ms/azureml/howto/versiondatavoor meer informatie over gegevenssetdefinities.

Initialiseer het definitieobject van de gegevensset.

Overname
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Constructor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameters

workspace
str
Vereist

De werkruimte waarin de gegevensset is geregistreerd.

dataset_id
str
Vereist

De gegevensset-id.

version_id
str
Vereist

De definitieversie.

dataflow
str
Vereist

Het object Gegevensstroom.

dataflow_json
Vereist

De JSON Van de gegevensstroom.

notes
str
Vereist

Optionele informatie over de definitie.

etag
str
Vereist

Etag.

created_time
datetime
Vereist

De aanmaaktijd van de definitie.

modified_time
datetime
Vereist

Het tijdstip van de laatste wijziging van de definitie.

deprecated_by_dataset_id
str
Vereist

De id van de gegevensset waarmee deze definitie wordt afgeschaft.

deprecated_by_definition_version
str
Vereist

De versie van de definitie waarmee deze definitie wordt afgeschaft.

data_path
DataPath
Vereist

Het gegevenspad.

dataset
Dataset
Vereist

Het bovenliggende gegevenssetobject.

Methoden

archive

Archiveer de definitie van de gegevensset.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

deprecate

Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.

reactivate

De definitie van de gegevensset opnieuw activeren.

Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

archive

Archiveer de definitie van de gegevensset.

archive()

Retouren

Geen.

Retourtype

Opmerkingen

Na archivering resulteert elke poging om de gegevensset op te halen in een fout. Als deze per ongeluk wordt gearchiveerd, gebruikt reactivate u om het te activeren.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameters

snapshot_name
str
Vereist

De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.

compute_target
ComputeTarget of str
standaardwaarde: None

Het rekendoel om het momentopnameprofiel te maken. Als u dit weglaat, wordt de lokale berekening gebruikt.

create_data_snapshot
bool
standaardwaarde: False

Indien Waar, wordt er een gerealiseerde kopie van de gegevens gemaakt.

target_datastore
Union[AbstractAzureStorageDatastore, str]
standaardwaarde: None

Het doelgegevensarchief waar de momentopname moet worden opgeslagen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.

Retouren

Een DatasetSnapshot-object.

Retourtype

Opmerkingen

Momentopnamen leggen overzichtsstatistieken over een bepaald tijdstip vast van de onderliggende gegevens en een optionele kopie van de gegevens zelf. Ga naar https://aka.ms/azureml/howto/createsnapshotsvoor meer informatie over het maken van momentopnamen.

deprecate

Beëindig de gegevensset met een aanwijzer naar de nieuwe gegevensset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameters

deprecate_by_dataset_id
uuid
Vereist

De gegevensset-id die verantwoordelijk is voor de afschaffing van de huidige gegevensset.

deprecated_by_definition_version
str
standaardwaarde: None

De definitieversie van de gegevensset die verantwoordelijk is voor het afschaffen van de huidige gegevenssetdefinitie.

Retouren

Geen.

Retourtype

Opmerkingen

Afgeschafte definities van gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u het gebruik van een gegevenssetdefinitie volledig wilt blokkeren, moet u deze archiveren.

Als een definitie van een gegevensset per ongeluk wordt afgeschaft, gebruikt reactivate u om deze te activeren.

reactivate

De definitie van de gegevensset opnieuw activeren.

Werkt met definities van gegevenssets die zijn afgeschaft of gearchiveerd.

reactivate()

Retouren

Geen.

Retourtype

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.

to_pandas_dataframe()

Retouren

Een Pandas DataFrame.

Retourtype

Opmerkingen

Retourneer een Pandas DataFrame dat volledig is gerealiseerd in het geheugen.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevensstroom.

to_spark_dataframe()

Retouren

Een Spark DataFrame.

Retourtype

Opmerkingen

Het geretourneerde Spark-dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes te langzaam worden geëvalueerd.