Share via


PipelineOutputFileDataset Klas

Vertegenwoordigt tussenliggende pijplijngegevens die zijn gepromoveerd naar een Azure Machine Learning-bestandsgegevensset.

Zodra een tussenliggende gegevensset is gepromoveerd tot een Azure Machine Learning-gegevensset, worden deze in de volgende stappen ook gebruikt als een gegevensset in plaats van een DataReference.

Maak tussenliggende gegevens die worden gepromoveerd naar een Azure Machine Learning-gegevensset.

Overname
PipelineOutputFileDataset

Constructor

PipelineOutputFileDataset(pipeline_data)

Parameters

pipeline_data
PipelineData
Vereist

De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.

pipeline_data
PipelineData
Vereist

De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.

Methoden

as_direct

Stel invoer van de verbruiksmodus van de gegevensset in op direct.

In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset.

as_download

Stel de verbruiksmodus in van de gegevensset die moet worden gedownload.

as_mount

Stel de verbruiksmodus van de gegevensset in op koppelen.

parse_delimited_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

parse_parquet_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

as_direct

Stel invoer van de verbruiksmodus van de gegevensset in op direct.

In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset.

as_direct()

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

as_download

Stel de verbruiksmodus in van de gegevensset die moet worden gedownload.

as_download(path_on_compute=None)

Parameters

path_on_compute
str
standaardwaarde: None

Het pad op de berekening waar de gegevensset naar moet worden gedownload. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

as_mount

Stel de verbruiksmodus van de gegevensset in op koppelen.

as_mount(path_on_compute=None)

Parameters

path_on_compute
str
standaardwaarde: None

Het pad op de berekening waaraan de gegevensset moet worden gekoppeld. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

parse_delimited_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameters

include_path
bool
standaardwaarde: False

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

separator
str
standaardwaarde: ,

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header
PromoteHeadersBehavior
standaardwaarde: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.

partition_format
str
standaardwaarde: None

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

file_extension
str
Vereist

De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is '.csv' wanneer het scheidingsteken ',' en '.tsv' is wanneer het scheidingsteken tab is en Geen anders. Als Geen wordt doorgegeven, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).

set_column_types
dict[str, DataType]
standaardwaarde: None

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

quoted_line_breaks
bool
standaardwaarde: False

Of nieuwe regeltekens binnen aanhalingstekens moeten worden verwerkt. Deze optie kan invloed hebben op de prestaties.

Retouren

Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.

Retourtype

Opmerkingen

Deze transformatie wordt alleen toegepast wanneer de tussenliggende gegevens worden gebruikt als invoer van de volgende stap. Dit heeft geen invloed op de uitvoer, zelfs niet als deze wordt doorgegeven aan de uitvoer.

parse_parquet_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameters

include_path
bool
standaardwaarde: False

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

partition_format
str
standaardwaarde: None

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

file_extension
str
standaardwaarde: .parquet

De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is .parquet. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).

set_column_types
dict[str, DataType]
standaardwaarde: None

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.

Retourtype

Opmerkingen

Deze transformatie wordt alleen toegepast wanneer de tussenliggende gegevens worden gebruikt als invoer van de volgende stap. Dit heeft geen invloed op de uitvoer, zelfs niet als deze wordt doorgegeven aan de uitvoer.