PipelineOutputFileDataset Класс
Представляет промежуточные данные конвейера, уровень которых повышен до файлового набора данных Машинного обучения Azure.
После того как уровень промежуточных данных будет повышен до набора данных Машинного обучения Azure, их можно будет использовать на последующих этапах как набор данных, а не как DataReference.
Создайте промежуточные данные, которые будут повышены до набора данных Машинного обучения Azure.
- Наследование
-
PipelineOutputFileDataset
Конструктор
PipelineOutputFileDataset(pipeline_data)
Параметры
- pipeline_data
- PipelineData
PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.
- pipeline_data
- PipelineData
PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.
Методы
as_direct |
Задание "direct" (прямой) в качестве режима использования набора данных. В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных. |
as_download |
Задание "download" (скачивание) в качестве режима использования набора данных. |
as_mount |
Задание режима mount для использования набора данных. |
parse_delimited_files |
Преобразование промежуточного файлового набора данных в табличный набор данных. Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные. |
parse_parquet_files |
Преобразование промежуточного файлового набора данных в табличный набор данных. Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные. |
as_direct
Задание "direct" (прямой) в качестве режима использования набора данных.
В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных.
as_direct()
Возвращаемое значение
Измененный PipelineOutputDataset.
Возвращаемый тип
as_download
Задание "download" (скачивание) в качестве режима использования набора данных.
as_download(path_on_compute=None)
Параметры
- path_on_compute
- str
Путь к вычислительному ресурсу, в который нужно скачать набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.
Возвращаемое значение
Измененный PipelineOutputDataset.
Возвращаемый тип
as_mount
Задание режима mount для использования набора данных.
as_mount(path_on_compute=None)
Параметры
- path_on_compute
- str
Путь к вычислительному ресурсу, к которому нужно подключить набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.
Возвращаемое значение
Измененный PipelineOutputDataset.
Возвращаемый тип
parse_delimited_files
Преобразование промежуточного файлового набора данных в табличный набор данных.
Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Параметры
- include_path
- bool
Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.
- header
- PromoteHeadersBehavior
Управляет повышением уровня заголовков столбцов при чтении из файлов. По умолчанию предполагается, что все файлы имеют одинаковый заголовок.
- partition_format
- str
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.csvt", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.csv" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".
- file_extension
- str
Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".csv", если разделителем является "," и ". tsv", если разделителем является TAB. В противном случае — None. Если передается None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).
Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, останутся со строковым типом. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.
- quoted_line_breaks
- bool
Следует ли обрабатывать символы новой строки в кавычках. Этот параметр может повлиять на производительность.
Возвращаемое значение
Возвращает промежуточные данные, которые будут табличным набором данных.
Возвращаемый тип
Комментарии
Это преобразование будет применено только в том случае, если промежуточные данные используются в качестве входных данных последующего этапа. Оно не влияет на выходные данные, даже если передается в них.
parse_parquet_files
Преобразование промежуточного файлового набора данных в табличный набор данных.
Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Параметры
- include_path
- bool
Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.
- partition_format
- str
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".
- file_extension
- str
Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".parquet". Если задано None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).
Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, будут оставаться в типе, загруженном из PARQUET-файла. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.
Возвращаемое значение
Возвращает промежуточные данные, которые будут табличным набором данных.
Возвращаемый тип
Комментарии
Это преобразование будет применено только в том случае, если промежуточные данные используются в качестве входных данных последующего этапа. Оно не влияет на выходные данные, даже если передается в них.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по