Dataset Klasse
Stellt eine Ressource für das Untersuchen, Transformieren und Verwalten von Daten in Azure Machine Learning dar
Ein Dataset ist ein Verweis auf Daten in einem Datastore oder hinter öffentlichen Web-URLs.
Für die veralteten Methoden in dieser Klasse finden Sie verbesserte APIs in der AbstractDataset-Klasse.
Die folgenden Datasettypen werden unterstützt:
TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.
FileDataset verweist auf Dateien in Datenspeichern oder unter öffentlichen URLs.
Informationen zu den ersten Schritten mit Datasets finden Sie im Artikel Hinzufügen & Registrieren von Datasets oder in den Notebooks https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.
Initialisieren Sie das Dataset-Objekt.
Verwenden Sie die get-Methode, um ein Dataset abzurufen, das bereits im Arbeitsbereich registriert wurde.
- Vererbung
-
builtins.objectDataset
Konstruktor
Dataset(definition, workspace=None, name=None, id=None)
Parameter
- definition
- <xref:azureml.data.DatasetDefinition>
Die Datasetdefinition.
Hinweise
Die Dataset-Klasse macht zwei praktische Klassenattribute (File
und Tabular
) verfügbar, die Sie zum Erstellen eines Datasets ohne die entsprechenden Factorymethoden verwenden können. So erstellen Sie beispielsweise ein Dataset mit diesen Attributen
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Sie können auch ein neues TabularDataset oder FileDataset erstellen, indem Sie die entsprechenden Factorymethoden der in TabularDatasetFactory und FileDatasetFactory definierten Klasse direkt aufrufen.
Im folgenden Beispiel wird gezeigt, wie ein TabularDataset erstellt wird, das auf einen einzelnen Pfad in einem Datenspeicher verweist.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.
Variablen
- azureml.core.Dataset.File
Ein Klassenattribut, das den Zugriff auf die FileDatasetFactory-Methoden zum Erstellen neuer FileDataset-Objekte ermöglicht. Verwendung: Dataset.File.from_files().
- azureml.core.Dataset.Tabular
Ein Klassenattribut, das den Zugriff auf die TabularDatasetFactory-Methoden zum Erstellen neuer TabularDataset-Objekte ermöglicht. Verwendung: Dataset.Tabular.from_delimited_files().
Methoden
archive |
Archiviert ein aktives oder veraltetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
auto_read_files |
Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
compare_profiles |
Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil. Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
create_snapshot |
Erstellt eine Momentaufnahme des registrierten Datasets. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
delete_snapshot |
Löscht die Momentaufnahme des Datasets anhand ihres Namens. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
deprecate |
Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
diff |
Vergleicht das aktuelle Dataset mit rhs_dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_binary_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_delimited_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
|
from_excel_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_json_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_parquet_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_sql_query |
Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
generate_profile |
Generiert ein neues Profil für das Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get |
Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_all |
Ruft alle registrierten Datasets im Arbeitsbereich ab. |
get_all_snapshots |
Ruft alle Momentaufnahmen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_by_id |
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird. |
get_by_name |
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab. |
get_definition |
Ruft eine bestimmte Definition des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_definitions |
Ruft alle Definitionen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_profile |
Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_snapshot |
Ruft die Momentaufnahme des Datasets anhand ihres Namens ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
head |
Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
list |
Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
reactivate |
Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
register |
Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
sample |
Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
update |
Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
update_definition |
Aktualisiert die Datasetdefinition. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
archive
Archiviert ein aktives oder veraltetes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
archive()
Gibt zurück
Keine.
Rückgabetyp
Hinweise
Nach der Archivierung führt jeder Versuch, das Dataset zu verwenden, zu einem Fehler. Bei einer zufälligen Archivierung kann es durch eine erneute Aktivierung wieder verwendet werden.
auto_read_files
Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parameter
- path
- DataReference oder str
Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL (CSV/TSV).
- include_path
- bool
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Ist beim Lesen mehrerer Dateien hilfreich, wenn Sie wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Auch nützlich, wenn Informationen im Dateipfad oder Namen enthalten sind, die Sie in einer Spalte verwenden möchten.
- partition_format
- str
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.
Gibt zurück
Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, wenn Dateiformate und Trennzeichen automatisch erkannt werden sollen.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
compare_profiles
Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.
Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameter
- rhs_dataset
- Dataset
Ein zweites Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.
Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.
Liste der Spaltennamen, die aus dem Vergleich ausgeschlossen werden sollen.
- histogram_compare_method
- HistogramCompareMethod
Enumeration zur Beschreibung der Vergleichsmethode, z. B.: Wasserstein oder Energy.
Gibt zurück
Unterschied zwischen den beiden Datasetprofilen.
Rückgabetyp
Hinweise
Gilt nur für registrierte Datasets. Löst eine Ausnahme aus, wenn das Profil des aktuellen Datasets nicht vorhanden ist. Verwenden Sie für nicht registrierte Datasets die profile.compare-Methode.
create_snapshot
Erstellt eine Momentaufnahme des registrierten Datasets.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
- snapshot_name
- str
Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.
- compute_target
- Union[ComputeTarget, str]
Optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.
- create_data_snapshot
- bool
TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Zieldatenspeicher zum Speichern der Momentaufnahme. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.
Gibt zurück
Datasetmomentaufnahme-Objekt.
Rückgabetyp
Hinweise
Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Löscht die Momentaufnahme des Datasets anhand ihres Namens.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parameter
Gibt zurück
Keine.
Rückgabetyp
Hinweise
Damit können Sie Speicher freigeben, der von Daten in Momentaufnahmen verwendet wird, die Sie nicht mehr benötigen.
deprecate
Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parameter
- deprecate_by_dataset_id
- str
Die Dataset-ID, die als Ersatz für dieses Dataset vorgesehen ist.
Gibt zurück
Keine.
Rückgabetyp
Hinweise
Veraltete Datasets führen zu Protokollwarnungen, wenn sie verwendet werden. Durch das Kennzeichnen eines Datasets als veraltet werden alle enthaltenen Definitionen als veraltet gekennzeichnet.
Veraltete Datasets können weiterhin verwendet werden. Wenn Sie ein Dataset vollständig von der Verwendung ausschließen möchten, archivieren Sie es.
Bei einer zufälligen Kennzeichnung als veraltet kann es durch eine erneute Aktivierung wieder verwendet werden.
diff
Vergleicht das aktuelle Dataset mit rhs_dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parameter
- rhs_dataset
- Dataset
Ein anderes Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.
- compute_target
- Union[ComputeTarget, str]
Computeziel für den Vergleich. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.
Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.
Gibt zurück
Ausführungsobjekt für eine Datasetaktion.
Rückgabetyp
from_binary_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parameter
- path
- DataReference oder str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.
Gibt zurück
Das Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, um Dateien als Datenströme von Binärdaten zu lesen. Gibt ein Dateidatenstrom-Objekt pro gelesener Datei zurück. Verwenden Sie diese Methode, wenn Sie Bilder, Videos, Audiodaten oder andere Binärdaten lesen.
get_profile und create_snapshot funktionieren nicht wie erwartet für ein Dataset, das mit dieser Methode erstellt wurde.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_delimited_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parameter
- path
- DataReference oder str
Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL.
- header
- PromoteHeadersBehavior
Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden.
- quoting
- bool
Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Beim Standardwert (False) werden Neue-Zeile-Zeichen als Start neuer Zeilen interpretiert, unabhängig davon, ob die Neue-Zeile-Zeichen in Anführungszeichen stehen. Bei einer Festlegung auf „True“ führen Neue-Zeile-Zeichen in Anführungszeichen nicht zu neuen Zeilen, und die Lesegeschwindigkeit von Dateien verlangsamt sich.
- skip_rows
- int
Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.
- skip_mode
- SkipLinesBehavior
Steuert, wie Zeilen beim Lesen aus Dateien übersprungen werden.
- comment
- str
Zeichen, das verwendet wird, um Kommentarzeilen in den zu lesenden Dateien anzugeben. Zeilen, die mit dieser Zeichenfolge beginnen, werden übersprungen.
- include_path
- bool
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.
- archive_options
- <xref:azureml.dataprep.ArchiveOptions>
Optionen für Archivdateien, einschließlich Archivtyp und Eintragsglobmuster. Derzeit wird nur ZIP als Archivtyp unterstützt. Bei der Angabe von
archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')
werden z. B. alle Dateien im ZIP-Archiv gelesen, deren Name auf „10-20.csv“ endet.
- partition_format
- str
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.
Gibt zurück
Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, um durch Trennzeichen getrennte Textdateien zu lesen, wenn Sie die verwendeten Optionen steuern möchten.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_excel_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parameter
- path
- DataReference oder str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.
- sheet_name
- str
Der Name der zu ladenden Excel-Tabelle. Standardmäßig wird das erste Tabellenblatt aus jeder Excel-Datei gelesen.
- use_column_headers
- bool
Legt fest, ob die erste Zeile für die Spaltenheader verwendet werden soll.
- skip_rows
- int
Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.
- include_path
- bool
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.
- partition_format
- str
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.xlsx“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.
Gibt zurück
Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, um Excel-Dateien im XLSX-Format zu lesen. Daten können aus einem Tabellenblatt in jeder Excel-Datei gelesen werden. Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten. Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_json_files
Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parameter
- path
- DataReference oder str
Der Pfad zu den Dateien oder Ordnern, die Sie laden und analysieren möchten. Dabei kann es sich entweder um einen lokalen Pfad oder um eine Azure-Blob-URL handeln. Die Verwendung von Platzhaltern wird unterstützt. Sie können beispielsweise path = „./data*“ verwenden, um alle Dateien mit einem Namen zu lesen, der mit „data“ beginnt.
- flatten_nested_arrays
- bool
Eigenschaft, die die Verarbeitung geschachtelter Arrays durch das Programm steuert. Wenn Sie geschachtelte JSON-Arrays vereinfachen möchten, kann dies zu einer erheblich größeren Anzahl von Zeilen führen.
- include_path
- bool
Gibt an, ob eine Spalte mit dem Pfad, aus dem die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.
- partition_format
- str
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.json“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.json“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.
Gibt zurück
Das lokale Datasetobjekt.
Rückgabetyp
from_pandas_dataframe
Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parameter
- path
- Union[DataReference, str]
Ein Datenpfad im registrierten Datenspeicher oder ein lokaler Ordnerpfad.
- in_memory
- bool
Gibt an, ob der Datenrahmen aus dem Arbeitsspeicher gelesen werden soll, anstatt auf dem Datenträger persistent gespeichert zu werden.
Gibt zurück
Ein Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, um einen Pandas-Datenrahmen in ein Datasetobjekt zu konvertieren. Ein mit dieser Methode erstelltes Dataset kann nicht registriert werden, da die Daten aus dem Arbeitsspeicher stammen.
Wenn in_memory
„False“ ist, wird der Pandas-Datenrahmen lokal in eine CSV-Datei konvertiert. Wenn pat
vom Typ DataReference ist, wird der Pandas-Rahmen in den Datenspeicher hochgeladen, und das Dataset basiert auf DataReference. Wenn „path“ ein lokaler Ordner ist, wird das Dataset aus der lokalen Datei erstellt, die nicht gelöscht werden kann.
Löst eine Ausnahme aus, wenn der aktuelle DataReference kein Ordnerpfad ist.
from_parquet_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parameter
- path
- DataReference oder str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.
- include_path
- bool
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.
- partition_format
- str
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.parquet“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.
Gibt zurück
Datasetobjekt.
Rückgabetyp
Hinweise
Verwenden Sie diese Methode, um Parquet-Dateien zu lesen.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_sql_query
Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parameter
Gibt zurück
Das lokale Datasetobjekt.
Rückgabetyp
generate_profile
Generiert ein neues Profil für das Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parameter
- compute_target
- Union[ComputeTarget, str]
Ein optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.
- workspace
- Workspace
Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.
Profilargumente. Gültige Argumente sind:
„include_stype_counts“ vom Typ bool. Überprüfen Sie, ob die Werte wie einige bekannte semantische Typen aussehen, z. B. E-Mail-Adresse, IP-Adresse (V4/V6), US-Telefonnummer, US-Postleitzahl, Breiten- und Längengrad. Die Aktivierung wirkt sich auf die Leistung aus.
„number_of_histogram_bins“ vom Typ int. Stellt die Anzahl der Histogrammintervalle dar, die für numerische Daten verwendet werden. Der Standardwert ist 10.
Gibt zurück
Ausführungsobjekt für eine Datasetaktion.
Rückgabetyp
Hinweise
Synchroner Aufruf. Wird bis zu seinem Abschluss blockiert. Rufen Sie get_result auf, um das Ergebnis der Aktion abzurufen.
get
Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset erstellt wurde.
Gibt zurück
Das Dataset mit dem angegebenen Namen oder der angegebenen ID.
Rückgabetyp
Hinweise
Sie können entweder name
oder id
angeben. In folgenden Fällen wird eine Ausnahme ausgelöst:
Sowohl
name
als auchid
wurden angegeben, stimmen aber nicht überein.Das Dataset mit dem angegebenen
name
oder der angegebenenid
kann nicht im Arbeitsbereich gefunden werden.
get_all
Ruft alle registrierten Datasets im Arbeitsbereich ab.
get_all()
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.
Gibt zurück
Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.
Rückgabetyp
get_all_snapshots
Ruft alle Momentaufnahmen des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_all_snapshots()
Gibt zurück
Liste von Datasetmomentaufnahmen.
Rückgabetyp
get_by_id
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
get_by_id(id, **kwargs)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.
Gibt zurück
Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.
Rückgabetyp
get_by_name
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.
get_by_name(name, version='latest', **kwargs)
Parameter
- workspace
- Workspace
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.
Gibt zurück
Das registrierte Datasetobjekt.
Rückgabetyp
get_definition
Ruft eine bestimmte Definition des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parameter
Gibt zurück
Die Datasetdefinition.
Rückgabetyp
Hinweise
Wenn version_id
angegeben wird, versucht Azure Machine Learning, die Definition abzurufen, die dieser Version entspricht. Wenn diese Version nicht vorhanden ist, wird eine Ausnahme ausgelöst.
Wenn version_id
ausgelassen wird, wird die neueste Version abgerufen.
get_definitions
Ruft alle Definitionen des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_definitions()
Gibt zurück
Ein Wörterbuch mit Datasetdefinitionen.
Rückgabetyp
Hinweise
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.
Für nicht registrierte Datasets gibt es nur eine Definition.
get_profile
Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parameter
- generate_if_not_exist
- bool
Gibt an, ob ein Profil generiert werden soll, wenn keines vorhanden ist.
- workspace
- Workspace
Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.
- compute_target
- Union[ComputeTarget, str]
Ein Computeziel zum Ausführen der Profilaktion.
Gibt zurück
DataProfile des Datasets.
Rückgabetyp
Hinweise
Für ein Dataset, das in einem Azure Machine Learning-Arbeitsbereich registriert ist, ruft diese Methode ein vorhandenes Profil ab, das zuvor erstellt wurde, indem get_profile
aufgerufen wird, wenn es noch gültig ist. Profile werden ungültig, wenn geänderte Daten im Dataset gefunden werden oder die Argumente für get_profile
sich von den Argumenten unterscheiden, die beim Generieren des Profils verwendet wurden. Wenn das Profil nicht vorhanden oder ungültig ist, bestimmt generate_if_not_exist
, ob ein neues Profil generiert wird.
Für ein Dataset, das nicht in einem Azure Machine Learning-Arbeitsbereich registriert ist, führt diese Methode immer generate_profile aus und gibt das Ergebnis zurück.
get_snapshot
Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parameter
Gibt zurück
Datasetmomentaufnahme-Objekt.
Rückgabetyp
head
Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
head(count)
Parameter
Gibt zurück
Ein Pandas-Datenrahmen.
Rückgabetyp
list
Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible
-Eigenschaft „False“ ist.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static list(workspace)
Parameter
- workspace
- Workspace
Der Arbeitsbereich, für den Sie die Liste der Datasets abrufen möchten.
Gibt zurück
Eine Liste von Datasetobjekten.
Rückgabetyp
reactivate
Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
reactivate()
Gibt zurück
Keine.
Rückgabetyp
register
Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parameter
- workspace
- Workspace
Der AzureML-Arbeitsbereich, in dem das Dataset registriert werden soll.
- visible
- bool
Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. „False“ gibt an, dass das Dataset auf der Benutzeroberfläche ausgeblendet und über das SDK verfügbar ist.
- exist_ok
- bool
Bei „True“ gibt die Methode das Dataset zurück, wenn es bereits im angegebenen Arbeitsbereich vorhanden ist. Andernfalls tritt ein Fehler auf.
- update_if_exist
- bool
Wenn exist_ok
„True“ und update_if_exist
„True“ ist, aktualisiert diese Methode die Definition und gibt das aktualisierte Dataset zurück.
Gibt zurück
Ein registriertes Datasetobjekt im Arbeitsbereich.
Rückgabetyp
sample
Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parameter
- sample_strategy
- str
Zu verwendende Samplingstrategie. Zulässige Werte sind „top_n“, „simple_random“ oder „stratified“.
Ein Wörterbuch mit Schlüsseln aus dem „optionalen Argument“ in der oben gezeigten Liste und Werten aus der Spalte „Type“. Es können nur Argumente der entsprechenden Samplingmethode verwendet werden. Für den Beispieltyp „simple_random“ können Sie beispielsweise nur ein Wörterbuch mit den Schlüsseln „probability“ und „seed“ angeben.
Gibt zurück
Datasetobjekt als Beispiel für das ursprüngliche Dataset.
Rückgabetyp
Hinweise
Stichproben werden generiert, indem die durch dieses Dataset definierte Transformationspipeline ausgeführt und dann die Samplingstrategie und die Parameter auf die Ausgabedaten angewandt werden. Jede Samplingmethode unterstützt die folgenden optionalen Argumente:
top_n
Optionale Argumente
- n, Typ integer. Wählt die ersten N Zeilen als Stichprobe aus.
simple_random
Optionale Argumente
probability, Typ float. Einfache zufällige Stichprobenentnahme, bei der jede Zeile die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden. Die Wahrscheinlichkeit (probability) muss eine Zahl zwischen 0 und 1 sein.
seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
stratified
Optionale Argumente
columns, Typ list[str]. Liste der geschichteten Spalten in den Daten.
seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
fractions, Typ dict[tuple, float]. Tupel: Spaltenwerte, die ein Stratum (eine Schicht) definieren. Sie müssen in der gleichen Reihenfolge wie die Spaltennamen vorliegen. Float: Gewichtung, die während der Stichprobenentnahme auf ein Stratum angewandt wird.
Die folgenden Codeausschnitte sind Beispiele für Entwurfsmuster bei verschiedenen Samplingmethoden.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Gibt zurück
Ein Pandas-Datenrahmen.
Rückgabetyp
Hinweise
Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.
to_spark_dataframe
Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Gibt zurück
Ein Spark-Datenrahmen.
Rückgabetyp
Hinweise
Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.
update
Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parameter
Gibt zurück
Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.
Rückgabetyp
update_definition
Aktualisiert die Datasetdefinition.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parameter
Gibt zurück
Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.
Rückgabetyp
Hinweise
Verwenden Sie das von dieser Methode zurückgegebene Objekt, um das aktualisierte Dataset zu nutzen.
Attribute
definition
Gibt die aktuelle Datasetdefinition zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Die Datasetdefinition.
Rückgabetyp
Hinweise
Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Mit mehreren Definitionen können Sie Änderungen an vorhandenen Datasets vornehmen, ohne dass dies Auswirkungen auf Modelle und Pipelines hat, die von der älteren Definition abhängen.
Für nicht registrierte Datasets gibt es nur eine Definition.
definition_version
Gibt die Version der aktuellen Definition des Datasets zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Die Version der Datasetdefinition.
Rückgabetyp
Hinweise
Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition, deren ID hiermit zurückgegeben wird, ist die zuletzt erstellte Definition.
Für nicht registrierte Datasets gibt es nur eine Definition.
description
Gibt die Beschreibung des Datasets zurück.
Gibt zurück
Die Datasetbeschreibung.
Rückgabetyp
Hinweise
Wenn Sie eine Beschreibung der Daten im Dataset angeben, wissen Benutzer*innen des Arbeitsbereichs, was die Daten darstellen und wie sie verwendet werden können.
id
Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird die ID des Datasets zurückgegeben. Andernfalls wird „None“ zurückgegeben.
Gibt zurück
Die Dataset-ID.
Rückgabetyp
is_visible
Steuert die Sichtbarkeit eines registrierten Datasets auf der Benutzeroberfläche des Azure Machine Learning-Arbeitsbereichs.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Die Sichtbarkeit des Datasets.
Rückgabetyp
Hinweise
Zurückgegebene Werte:
True: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs sichtbar. Standard.
False: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs nicht sichtbar.
Hat keine Auswirkungen auf nicht registrierte Datasets.
name
state
Gibt den Zustand des Datasets zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Der Datasetzustand.
Rückgabetyp
Hinweise
Folgende Bedeutung und Auswirkung haben Zustände:
Active. Aktive Definitionen sind selbsterklärend: Alle Aktionen können für aktive Definitionen ausgeführt werden.
Veraltet. Veraltete Definitionen können verwendet werden, dies führt jedoch dazu, dass bei jedem Zugriff auf die zugrunde liegenden Daten eine Warnung in den Protokollen erfasst wird.
Archiviert. Archivierte Definitionen können nicht zum Ausführen von Aktionen verwendet werden. Um Aktionen für eine archivierte Definition auszuführen, muss sie erneut aktiviert werden.
tags
workspace
Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird dieser zurückgegeben. Andernfalls wird „None“ zurückgegeben.
Gibt zurück
Der Arbeitsbereich.
Rückgabetyp
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für