PipelineOutputFileDataset Klas
Vertegenwoordigt tussenliggende pijplijngegevens die zijn gepromoveerd naar een Azure Machine Learning-bestandsgegevensset.
Zodra een tussenliggende gegevensset is gepromoveerd tot een Azure Machine Learning-gegevensset, worden deze in de volgende stappen ook gebruikt als een gegevensset in plaats van een DataReference.
Maak tussenliggende gegevens die worden gepromoveerd naar een Azure Machine Learning-gegevensset.
- Overname
-
PipelineOutputFileDataset
Constructor
PipelineOutputFileDataset(pipeline_data)
Parameters
- pipeline_data
- PipelineData
De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.
- pipeline_data
- PipelineData
De PipelineData die de tussenliggende uitvoer vertegenwoordigt die wordt gepromoveerd naar een gegevensset.
Methoden
as_direct |
Stel invoer van de verbruiksmodus van de gegevensset in op direct. In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset. |
as_download |
Stel de verbruiksmodus in van de gegevensset die moet worden gedownload. |
as_mount |
Stel de verbruiksmodus van de gegevensset in op koppelen. |
parse_delimited_files |
Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset. De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer. |
parse_parquet_files |
Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset. De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer. |
as_direct
Stel invoer van de verbruiksmodus van de gegevensset in op direct.
In deze modus krijgt u de id van de gegevensset en kunt u in uw script Dataset.get_by_id aanroepen om de gegevensset op te halen. run.input_datasets[{dataset_name}] retourneert de gegevensset.
as_direct()
Retouren
De gewijzigde PipelineOutputDataset.
Retourtype
as_download
Stel de verbruiksmodus in van de gegevensset die moet worden gedownload.
as_download(path_on_compute=None)
Parameters
- path_on_compute
- str
Het pad op de berekening waar de gegevensset naar moet worden gedownload. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.
Retouren
De gewijzigde PipelineOutputDataset.
Retourtype
as_mount
Stel de verbruiksmodus van de gegevensset in op koppelen.
as_mount(path_on_compute=None)
Parameters
- path_on_compute
- str
Het pad op de berekening waaraan de gegevensset moet worden gekoppeld. De standaardwaarde is Geen, wat betekent dat Azure Machine Learning een pad voor u kiest.
Retouren
De gewijzigde PipelineOutputDataset.
Retourtype
parse_delimited_files
Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.
De tabellaire gegevensset wordt gemaakt door de bestanden met scheidingstekens te parseren waar naar wordt verwezen door de tussenliggende uitvoer.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parameters
- include_path
- bool
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.
- header
- PromoteHeadersBehavior
Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.
- partition_format
- str
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.
- file_extension
- str
De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is '.csv' wanneer het scheidingsteken ',' en '.tsv' is wanneer het scheidingsteken tab is en Geen anders. Als Geen wordt doorgegeven, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.
- quoted_line_breaks
- bool
Of nieuwe regeltekens binnen aanhalingstekens moeten worden verwerkt. Deze optie kan invloed hebben op de prestaties.
Retouren
Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.
Retourtype
Opmerkingen
Deze transformatie wordt alleen toegepast wanneer de tussenliggende gegevens worden gebruikt als invoer van de volgende stap. Dit heeft geen invloed op de uitvoer, zelfs niet als deze wordt doorgegeven aan de uitvoer.
parse_parquet_files
Transformeer de gegevensset van het tussenliggende bestand naar een tabellaire gegevensset.
De gegevensset in tabelvorm wordt gemaakt door het parquet-bestand(en) te parseren waar naar wordt verwezen door de tussenliggende uitvoer.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parameters
- include_path
- bool
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.
- partition_format
- str
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.
- file_extension
- str
De bestandsextensie van de bestanden die moeten worden gelezen. Alleen bestanden met deze extensie worden gelezen uit de map. De standaardwaarde is .parquet. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen, ongeacht de extensie (of het ontbreken van de extensie).
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.
Retouren
Retourneert een tussenliggende gegevensset die een tabellaire gegevensset wordt.
Retourtype
Opmerkingen
Deze transformatie wordt alleen toegepast wanneer de tussenliggende gegevens worden gebruikt als invoer van de volgende stap. Dit heeft geen invloed op de uitvoer, zelfs niet als deze wordt doorgegeven aan de uitvoer.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor