OutputFileDatasetConfig Klass

Representerar hur du kopierar utdata från en körning och befordras som en FileDataset.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initiera en OutputFileDatasetConfig.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan befordrar utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Arv
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametrar

Name Description
name
Obligatorisk
str

Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.

destination
Obligatorisk

Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till.

Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}.

source
Obligatorisk
str

Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog.

partition_format
Obligatorisk
str

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

name
Obligatorisk
str

Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.

destination
Obligatorisk

Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till.

Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}.

source
Obligatorisk
str

Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog.

partition_format
Obligatorisk
str

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

Kommentarer

Du kan skicka OutputFileDatasetConfig som ett argument till körningen och den översätts automatiskt till en lokal sökväg i beräkningen. Källargumentet används om ett anges, annars genererar vi automatiskt en katalog i operativsystemets temp-mapp. Filerna och mapparna i källkatalogen kopieras sedan till målet baserat på utdatakonfigurationen.

Som standard kommer det läge som utdata ska kopieras till mållagringen att ställas in på montering. Mer information om monteringsläge finns i dokumentationen för as_mount.

Metoder

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_input(name=None)

Parametrar

Name Description
name
Obligatorisk
str

Namnet på de indata som är specifika för körningen.

Returer

Typ Description

En DatasetConsumptionConfig instans som beskriver hur du levererar indata.

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_mount(disable_metadata_cache=False)

Parametrar

Name Description
disable_metadata_cache
Obligatorisk

Om metadata ska cachelagras i en lokal nod kan en nod inte se filer som genereras från andra noder under jobbkörningen om den är inaktiverad.

Returer

Typ Description

En OutputFileDatasetConfig instans med läge inställt på montering.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_upload(overwrite=False, source_globs=None)

Parametrar

Name Description
overwrite
Obligatorisk

Om du vill skriva över filer som redan finns i målet.

source_globs
Obligatorisk

Globmönster som används för att filtrera filer som ska laddas upp.

Returer

Typ Description

En OutputFileDatasetConfig instans med läget inställt på uppladdning.