PipelineOutputFileDataset Klas

Referentie

Vertegenwoordigt tussenliggende pijplijngegevens die zijn gepromoveerd naar een Azure Machine Learning-bestandsgegevensset.

Zodra een tussenliggende gegevensset is gepromoveerd tot een Azure Machine Learning-gegevensset, worden deze in de volgende stappen ook gebruikt als een gegevensset in plaats van een DataReference.

Maak tussenliggende gegevens die worden gepromoveerd naar een Azure Machine Learning-gegevensset.

Overname: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Constructor

PipelineOutputFileDataset(pipeline_data)

Parameters

pipeline_data: PipelineData

Vereist

De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.

pipeline_data: PipelineData

Vereist

De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.

Methoden

as_direct	Stel invoer van de verbruiksmodus van de gegevensset in op direct. In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset.
as_download	Stel de verbruiksmodus in van de gegevensset die moet worden gedownload.
as_mount	Stel de verbruiksmodus van de gegevensset in op koppelen.
parse_delimited_files	Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset. De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer.
parse_parquet_files	Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset. De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

as_direct

Stel invoer van de verbruiksmodus van de gegevensset in op direct.

In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset.

as_direct()

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

PipelineOutputFileDataset

as_download

Stel de verbruiksmodus in van de gegevensset die moet worden gedownload.

as_download(path_on_compute=None)

Parameters

path_on_compute: str

standaardwaarde: None

Het pad op de berekening waar de gegevensset naar moet worden gedownload. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

PipelineOutputFileDataset

as_mount

Stel de verbruiksmodus van de gegevensset in op koppelen.

as_mount(path_on_compute=None)

Parameters

path_on_compute: str

standaardwaarde: None

Het pad op de berekening waaraan de gegevensset moet worden gekoppeld. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.

Retouren

De gewijzigde PipelineOutputDataset.

Retourtype

PipelineOutputFileDataset

parse_delimited_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameters

include_path: bool

standaardwaarde: False

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

separator: str

standaardwaarde: ,

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header: PromoteHeadersBehavior

standaardwaarde: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.

partition_format: str

standaardwaarde: None

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

file_extension: str

Vereist

De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is '.csv' wanneer het scheidingsteken ',' en '.tsv' is wanneer het scheidingsteken tab is en Geen anders. Als Geen wordt doorgegeven, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).

set_column_types: dict[str, DataType]

standaardwaarde: None

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

quoted_line_breaks: bool

standaardwaarde: False

Of nieuwe regeltekens binnen aanhalingstekens moeten worden verwerkt. Deze optie kan invloed hebben op de prestaties.

Retouren

Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.

Retourtype

PipelineOutputTabularDataset

Opmerkingen

Deze transformatie wordt alleen toegepast wanneer de tussenliggende gegevens worden gebruikt als invoer van de volgende stap. Dit heeft geen invloed op de uitvoer, zelfs niet als deze wordt doorgegeven aan de uitvoer.

parse_parquet_files

Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.

De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameters

include_path: bool

standaardwaarde: False

partition_format: str

standaardwaarde: None

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

file_extension: str

standaardwaarde: .parquet

De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is .parquet. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).

set_column_types: dict[str, DataType]

standaardwaarde: None

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.

Retourtype

PipelineOutputTabularDataset

Share via

PipelineOutputFileDataset Klas

Constructor

Parameters

Methoden

as_direct

Retouren

Retourtype

as_download

Parameters

Retouren

Retourtype

as_mount

Parameters

Retouren

Retourtype

parse_delimited_files

Parameters

Retouren

Retourtype

Opmerkingen

parse_parquet_files

Parameters

Retouren

Retourtype

Opmerkingen

Feedback

Feedback

Aanvullende resources