PipelineOutputFileDataset Klasse

Referenz

Stellt zwischengeschaltete Pipelinedaten dar, die zu einem Azure Machine Learning File-Dataset hochgestuft werden.

Sobald Zwischendaten zu einem Azure Machine Learning Dataset aufgestuft werden, werden sie in den nachfolgenden Schritten auch als Dataset statt als DataReference verwendet.

Erstellen Sie eine Zwischendaten, die zu einem Azure Machine Learning-Dataset heraufgestuft werden.

Vererbung: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parameter

pipeline_data: PipelineData

Erforderlich

Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.

pipeline_data: PipelineData

Erforderlich

Die PipelineData, die die Zwischenausgabe darstellen, die zu einem Dataset höher gestuft werden.

Methoden

as_direct	Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest. In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück.
as_download	Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.
as_mount	Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest.
parse_delimited_files	Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset. Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist.
parse_parquet_files	Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset. Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist.

as_direct

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

In diesem Modus rufen Sie die ID des Datasets ab, und in Ihrem Skript können Sie Dataset.get_by_id aufrufen, um das Dataset abzurufen. run.input_datasets['{dataset_name}'] gibt das Dataset zurück.

as_direct()

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

PipelineOutputFileDataset

as_download

Legen Sie die Eingabe für den Nutzungsmodus des Datasets direkt fest.

as_download(path_on_compute=None)

Parameter

path_on_compute: str

Standardwert: None

Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

PipelineOutputFileDataset

as_mount

Legen Sie die Eingabe für den Nutzungsmodus des Datasets zum Einlegen fest.

as_mount(path_on_compute=None)

Parameter

path_on_compute: str

Standardwert: None

Der Pfad am Computeziel, in den die Daten heruntergeladen werden sollen. Der Standardwert ist None. Dies bedeutet, dass Azure Machine Learning einen Pfad für Sie ausgibt.

Gibt zurück

Das geänderte PipelineOutputDataset.

Rückgabetyp

PipelineOutputFileDataset

parse_delimited_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der begrenzten Datei(en) erstellt, auf die die Zwischenausgabe verweist.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameter

include_path: bool

Standardwert: False

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist hilfreich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

separator: str

Standardwert: ,

Das Trennzeichen für das Aufteilen von Spalten.

header: PromoteHeadersBehavior

Standardwert: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Standardmäßig wird davon ausgegangen, dass alle Dateien denselben Header aufweisen.

partition_format: str

Standardwert: None

Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad ‚../Accounts/2019/01/01/data.csv‘ an, wobei die Partition dabei nach Abteilungsname und Uhrzeit erfolgt und ‚partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv‘ erstellt eine Zeichenfolgenspalte mit Abteilungsnamen und Zeit mit dem Wert ‚Konten‘ und eine datetime-Spalte namens ‚PartitionDate‘ mit dem Wert ‚01.01.2019‘.

file_extension: str

Erforderlich

Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚csv‘, wenn das Trennzeichen ‚,‘ und ‚tsv‘ ist, wenn das Trennzeichen tabellarisch ist, andernfalls None. Wenn None weitergegeben wird, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.

set_column_types: dict[str, DataType]

Standardwert: None

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der Typ „string“ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.

quoted_line_breaks: bool

Standardwert: False

Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Diese Option kann eine Leistung bewirken.

Gibt zurück

Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.

Rückgabetyp

PipelineOutputTabularDataset

Hinweise

Diese Transformation wird nur angewendet, wenn die Zwischendaten als Eingabe des nachfolgenden Schritts verwendet werden. Sie hat keine Auswirkungen auf die Ausgabe, auch wenn sie an die Ausgabe übergeben wird.

parse_parquet_files

Transformieren Sie das Zwischendateidataset in ein tabellarisches Dataset.

Das tabellarische Dataset wird durch Analysieren der Parquet-Datei(en) erstellt, auf die die Zwischenausgabe verweist.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameter

include_path: bool

Standardwert: False

partition_format: str

Standardwert: None

Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partitionierung erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

file_extension: str

Standardwert: .parquet

Die Dateierweiterung der zu lesende Dateien. Nur Dateien mit dieser Erweiterung werden aus dem Verzeichnis gelesen. Der Standardwert ist ‚Parquet‘. Wenn diese Einstellung auf None festgelegt ist, werden alle Dateien unabhängig von ihrer Erweiterung (oder fehlenden Erweiterung) gelesen.

set_column_types: dict[str, DataType]

Standardwert: None

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. Für Spalten, die nicht im Wörterbuch enthalten sind, wird der aus der Parquet-Datei geladene Typ beibehalten. Wenn „None“ übergeben wird, erfolgt keine Konvertierung. Einträge für Spalten, die nicht in den Quelldaten gefunden werden, verursachen keinen Fehler und werden ignoriert.

Gibt zurück

Gibt zwischengeschaltete Daten zurück, bei denen es sich um ein tabellarisches Dataset handelt.

Rückgabetyp

PipelineOutputTabularDataset

PipelineOutputFileDataset Klasse

Konstruktor

Parameter

Methoden

as_direct

Gibt zurück

Rückgabetyp

as_download

Parameter

Gibt zurück

Rückgabetyp

as_mount

Parameter

Gibt zurück

Rückgabetyp

parse_delimited_files

Parameter

Gibt zurück

Rückgabetyp

Hinweise

parse_parquet_files

Parameter

Gibt zurück

Rückgabetyp

Hinweise

Feedback

Feedback

Zusätzliche Ressourcen