OutputFileDatasetConfig Класс

Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализация OutputFileDatasetConfig.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Наследование
OutputFileDatasetConfig
OutputFileDatasetConfig

Конструктор

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Параметры

name
str
Обязательно

Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.

destination
tuple
Обязательно

Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные.

Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
str
Обязательно

Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.

partition_format
str
Обязательно

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

name
str
Обязательно

Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.

destination
tuple
Обязательно

Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные.

Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
str
Обязательно

Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.

partition_format
str
Обязательно

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

Комментарии

Вы можете передать параметр OutputFileDatasetConfig в качестве аргумента в запуск, и он будет автоматически преобразован в локальный путь для вычислений. Если задан исходный аргумент, будет использоваться он. В противном случае мы автоматически создадим каталог во временной папке операционной системы. Файлы и папки в исходном каталоге будут скопированы в место назначения, зависящее от выходной конфигурации.

По умолчанию для копирования выходных данных в целевое хранилище будет задан режим подключения. Дополнительные сведения о режиме подключения см. в документации по as_mount.

Методы

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_input(name=None)

Параметры

name
str
Обязательно

Имя входных данных, характерных для запуска.

Возвращаемое значение

Экземпляр DatasetConsumptionConfig, описывающий способ доставки входных данных.

Возвращаемый тип

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_mount(disable_metadata_cache=False)

Параметры

disable_metadata_cache
bool
Обязательно

Указывает, требуется ли кэшировать метаданные на локальном узле. Если отключено, узел не сможет просматривать файлы, созданные на других узлах во время выполнения задания.

Возвращаемое значение

Экземпляр OutputFileDatasetConfig с режимом подключения.

Возвращаемый тип

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_upload(overwrite=False, source_globs=None)

Параметры

overwrite
bool
Обязательно

Указывает, следует ли перезаписывать файлы, уже существующие в назначении.

source_globs
list[str]
Обязательно

Стандартные маски, используемые для фильтрации файлов, подлежащих отправке.

Возвращаемое значение

Экземпляр OutputFileDatasetConfig с режимом отправки.

Возвращаемый тип