PipelineOutputFileDataset Klasse
Stellt zwischengeschaltete Pipelinedaten dar, die zu einem Azure Machine Learning File-Dataset hochgestuft werden.
Sobald Zwischendaten zu einem Azure Machine Learning Dataset aufgestuft werden, werden sie in den nachfolgenden Schritten auch als Dataset statt als DataReference verwendet.
Erstellen Sie eine Zwischendaten, die zu einem Azure Machine Learning-Dataset heraufgestuft werden.
- Vererbung
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Parameter
- pipeline_data
- PipelineData
Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.
- pipeline_data
- PipelineData
Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.
Methoden
as_direct |
Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest. In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück. |
as_download |
Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest. |
as_mount |
Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest. |
parse_delimited_files |
Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset. Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist. |
parse_parquet_files |
Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset. Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist. |
as_direct
Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.
In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück.
as_direct()
Gibt zurück
Das geänderte PipelineOutputDataset.
Rückgabetyp
as_download
Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.
as_download(path_on_compute=None)
Parameter
- path_on_compute
- str
Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.
Gibt zurück
Das geänderte PipelineOutputDataset.
Rückgabetyp
as_mount
Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest.
as_mount(path_on_compute=None)
Parameter
- path_on_compute
- str
Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.
Gibt zurück
Das geänderte PipelineOutputDataset.
Rückgabetyp
parse_delimited_files
Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.
Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parameter
- include_path
- bool
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist hilfreich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.
- header
- PromoteHeadersBehavior
Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Standardmäßig wird davon ausgegangen, dass alle Dateien denselben Header aufweisen.
- partition_format
- str
Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad ‚../Accounts/2019/01/01/data.csv‘ an, wobei die Partition dabei nach Abteilungsname und Uhrzeit erfolgt und ‚partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv‘ erstellt eine Zeichenfolgenspalte mit Abteilungsnamen und Zeit mit dem Wert ‚Konten‘ und eine datetime-Spalte namens ‚PartitionDate‘ mit dem Wert ‚01.01.2019‘.
- file_extension
- str
Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚csv‘, wenn das Trennzeichen ‚,‘ und ‚tsv‘ ist, wenn das Trennzeichen tabellarisch ist, andernfalls None. Wenn None weitergegeben wird, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der Typ „string“ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.
- quoted_line_breaks
- bool
Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Diese Option kann eine Leistung bewirken.
Gibt zurück
Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.
Rückgabetyp
Hinweise
Diese Transformation wird nur angewendet, wenn die Zwischendaten als Eingabe des nachfolgenden Schritts verwendet werden. Sie hat keine Auswirkungen auf die Ausgabe, auch wenn sie an die Ausgabe übergeben wird.
parse_parquet_files
Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.
Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parameter
- include_path
- bool
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist hilfreich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.
- partition_format
- str
Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partitionierung erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
- file_extension
- str
Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚Parquet‘. Wenn diese Einstellung auf None festgelegt ist, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der aus der Parquet-Datei geladene Typ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.
Gibt zurück
Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.
Rückgabetyp
Hinweise
Diese Transformation wird nur angewendet, wenn die Zwischendaten als Eingabe des nachfolgenden Schritts verwendet werden. Sie hat keine Auswirkungen auf die Ausgabe, auch wenn sie an die Ausgabe übergeben wird.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für