OutputFileDatasetConfig Klass

Referens

Representerar hur du kopierar utdata från en körning och befordras som en FileDataset.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initiera en OutputFileDatasetConfig.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan befordrar utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Arv: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametrar

Name	Description
name Obligatorisk	str Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.
destination Obligatorisk	tuple Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till. Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}.
source Obligatorisk	str Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog.
partition_format Obligatorisk	str Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.
name Obligatorisk	str Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.
destination Obligatorisk	tuple Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till. Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}.
source Obligatorisk	str Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog.
partition_format Obligatorisk	str Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

Kommentarer

Du kan skicka OutputFileDatasetConfig som ett argument till körningen och den översätts automatiskt till en lokal sökväg i beräkningen. Källargumentet används om ett anges, annars genererar vi automatiskt en katalog i operativsystemets temp-mapp. Filerna och mapparna i källkatalogen kopieras sedan till målet baserat på utdatakonfigurationen.

Som standard kommer det läge som utdata ska kopieras till mållagringen att ställas in på montering. Mer information om monteringsläge finns i dokumentationen för as_mount.

Metoder

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_input(name=None)

Parametrar

Name	Description
name Obligatorisk	str Namnet på de indata som är specifika för körningen.

Returer

Typ	Description
DatasetConsumptionConfig	En DatasetConsumptionConfig instans som beskriver hur du levererar indata.

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_mount(disable_metadata_cache=False)

Parametrar

Name	Description
disable_metadata_cache Obligatorisk	bool Om metadata ska cachelagras i en lokal nod kan en nod inte se filer som genereras från andra noder under jobbkörningen om den är inaktiverad.

Returer

Typ	Description
OutputFileDatasetConfig	En OutputFileDatasetConfig instans med läge inställt på montering.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_upload(overwrite=False, source_globs=None)

Parametrar

Name	Description
overwrite Obligatorisk	bool Om du vill skriva över filer som redan finns i målet.
source_globs Obligatorisk	list[str] Globmönster som används för att filtrera filer som ska laddas upp.

Returer

Typ	Description
OutputFileDatasetConfig	En OutputFileDatasetConfig instans med läget inställt på uppladdning.

OutputFileDatasetConfig Klass

Konstruktor

Parametrar

Kommentarer

Metoder

as_input

Parametrar

Returer

as_mount

Parametrar

Returer

as_upload

Parametrar

Returer

Feedback

Feedback

Ytterligare resurser