OutputFileDatasetConfig Класс

Ссылка

Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализируйте OutputFileDatasetConfig.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Наследование: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

Конструктор

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Параметры

Имя	Описание
name Обязательно	str Имя выходных данных, относящихся к этому запуску. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.
destination Обязательно	tuple Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные. Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.
source Обязательно	str Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.
partition_format Обязательно	str Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".
name Обязательно	str Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.
destination Обязательно	tuple Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные. Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.
source Обязательно	str Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.
partition_format Обязательно	str Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

Вы можете передать параметр OutputFileDatasetConfig в качестве аргумента в запуск, и он будет автоматически преобразован в локальный путь для вычислений. Если задан исходный аргумент, будет использоваться он. В противном случае мы автоматически создадим каталог во временной папке операционной системы. Файлы и папки в исходном каталоге будут скопированы в место назначения, зависящее от выходной конфигурации.

По умолчанию для копирования выходных данных в целевое хранилище будет задан режим подключения. Дополнительные сведения о режиме подключения см. в документации по as_mount.

Методы

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_input(name=None)

Параметры

Имя	Описание
name Обязательно	str Имя входных данных, характерных для запуска.

Возвращаемое значение

Тип	Описание
DatasetConsumptionConfig	Экземпляр DatasetConsumptionConfig, описывающий способ доставки входных данных.

as_mount

Задает режим вывода на подключение.

as_mount(disable_metadata_cache=False)

Параметры

Имя	Описание
disable_metadata_cache Обязательно	bool Указывает, требуется ли кэшировать метаданные на локальном узле. Если отключено, узел не сможет просматривать файлы, созданные на других узлах во время выполнения задания.

Возвращаемое значение

Тип	Описание
OutputFileDatasetConfig	Экземпляр OutputFileDatasetConfig с режимом подключения.

as_upload

Задает режим вывода для отправки.

as_upload(overwrite=False, source_globs=None)

Параметры

Имя	Описание
overwrite Обязательно	bool Указывает, следует ли перезаписывать файлы, уже существующие в назначении.
source_globs Обязательно	list[str] Стандартные маски, используемые для фильтрации файлов, подлежащих отправке.

Возвращаемое значение

Тип	Описание
OutputFileDatasetConfig	Экземпляр OutputFileDatasetConfig с режимом отправки.

Share via

OutputFileDatasetConfig Класс

Конструктор

Параметры

Комментарии

Методы

as_input

Параметры

Возвращаемое значение

as_mount

Параметры

Возвращаемое значение

as_upload

Параметры

Возвращаемое значение

Обратная связь

Обратная связь

Дополнительные ресурсы