PipelineOutputFileDataset Klasse

Stellt zwischengeschaltete Pipelinedaten dar, die zu einem Azure Machine Learning File-Dataset hochgestuft werden.

Sobald Zwischendaten zu einem Azure Machine Learning Dataset aufgestuft werden, werden sie in den nachfolgenden Schritten auch als Dataset statt als DataReference verwendet.

Erstellen Sie eine Zwischendaten, die zu einem Azure Machine Learning-Dataset heraufgestuft werden.

Vererbung
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parameter

pipeline_data
PipelineData
Erforderlich

Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.

pipeline_data
PipelineData
Erforderlich

Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.

Methoden

as_direct

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück.

as_download

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

as_mount

Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest.

parse_delimited_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist.

parse_parquet_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist.

as_direct

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück.

as_direct()

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

as_download

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

as_download(path_on_compute=None)

Parameter

path_on_compute
str
Standardwert: None

Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

as_mount

Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest.

as_mount(path_on_compute=None)

Parameter

path_on_compute
str
Standardwert: None

Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

parse_delimited_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameter

include_path
bool
Standardwert: False

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist hilfreich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

separator
str
Standardwert: ,

Das Trennzeichen für das Aufteilen von Spalten.

header
PromoteHeadersBehavior
Standardwert: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Standardmäßig wird davon ausgegangen, dass alle Dateien denselben Header aufweisen.

partition_format
str
Standardwert: None

Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad ‚../Accounts/2019/01/01/data.csv‘ an, wobei die Partition dabei nach Abteilungsname und Uhrzeit erfolgt und ‚partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv‘ erstellt eine Zeichenfolgenspalte mit Abteilungsnamen und Zeit mit dem Wert ‚Konten‘ und eine datetime-Spalte namens ‚PartitionDate‘ mit dem Wert ‚01.01.2019‘.

file_extension
str
Erforderlich

Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚csv‘, wenn das Trennzeichen ‚,‘ und ‚tsv‘ ist, wenn das Trennzeichen tabellarisch ist, andernfalls None. Wenn None weitergegeben wird, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.

set_column_types
dict[str, DataType]
Standardwert: None

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der Typ „string“ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.

quoted_line_breaks
bool
Standardwert: False

Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Diese Option kann eine Leistung bewirken.

Gibt zurück

Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.

Rückgabetyp

Hinweise

Diese Transformation wird nur angewendet, wenn die Zwischendaten als Eingabe des nachfolgenden Schritts verwendet werden. Sie hat keine Auswirkungen auf die Ausgabe, auch wenn sie an die Ausgabe übergeben wird.

parse_parquet_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameter

include_path
bool
Standardwert: False

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist hilfreich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

partition_format
str
Standardwert: None

Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partitionierung erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

file_extension
str
Standardwert: .parquet

Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚Parquet‘. Wenn diese Einstellung auf None festgelegt ist, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.

set_column_types
dict[str, DataType]
Standardwert: None

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der aus der Parquet-Datei geladene Typ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.

Gibt zurück

Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.

Rückgabetyp

Hinweise

Diese Transformation wird nur angewendet, wenn die Zwischendaten als Eingabe des nachfolgenden Schritts verwendet werden. Sie hat keine Auswirkungen auf die Ausgabe, auch wenn sie an die Ausgabe übergeben wird.