PipelineOutputFileDataset Класс

Представляет промежуточные данные конвейера, уровень которых повышен до файлового набора данных Машинного обучения Azure.

После того как уровень промежуточных данных будет повышен до набора данных Машинного обучения Azure, их можно будет использовать на последующих этапах как набор данных, а не как DataReference.

Создайте промежуточные данные, которые будут повышены до набора данных Машинного обучения Azure.

Наследование
PipelineOutputFileDataset

Конструктор

PipelineOutputFileDataset(pipeline_data)

Параметры

pipeline_data
PipelineData
Обязательно

PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.

pipeline_data
PipelineData
Обязательно

PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.

Методы

as_direct

Задание "direct" (прямой) в качестве режима использования набора данных.

В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных.

as_download

Задание "download" (скачивание) в качестве режима использования набора данных.

as_mount

Задание режима mount для использования набора данных.

parse_delimited_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные.

parse_parquet_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные.

as_direct

Задание "direct" (прямой) в качестве режима использования набора данных.

В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных.

as_direct()

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

as_download

Задание "download" (скачивание) в качестве режима использования набора данных.

as_download(path_on_compute=None)

Параметры

path_on_compute
str
значение по умолчанию: None

Путь к вычислительному ресурсу, в который нужно скачать набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

as_mount

Задание режима mount для использования набора данных.

as_mount(path_on_compute=None)

Параметры

path_on_compute
str
значение по умолчанию: None

Путь к вычислительному ресурсу, к которому нужно подключить набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

parse_delimited_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Параметры

include_path
bool
значение по умолчанию: False

Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

separator
str
значение по умолчанию: ,

Разделитель, используемый для разделения столбцов.

header
PromoteHeadersBehavior
значение по умолчанию: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Управляет повышением уровня заголовков столбцов при чтении из файлов. По умолчанию предполагается, что все файлы имеют одинаковый заголовок.

partition_format
str
значение по умолчанию: None

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.csvt", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.csv" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

file_extension
str
Обязательно

Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".csv", если разделителем является "," и ". tsv", если разделителем является TAB. В противном случае — None. Если передается None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).

set_column_types
dict[str, DataType]
значение по умолчанию: None

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, останутся со строковым типом. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

quoted_line_breaks
bool
значение по умолчанию: False

Следует ли обрабатывать символы новой строки в кавычках. Этот параметр может повлиять на производительность.

Возвращаемое значение

Возвращает промежуточные данные, которые будут табличным набором данных.

Возвращаемый тип

Комментарии

Это преобразование будет применено только в том случае, если промежуточные данные используются в качестве входных данных последующего этапа. Оно не влияет на выходные данные, даже если передается в них.

parse_parquet_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Параметры

include_path
bool
значение по умолчанию: False

Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

partition_format
str
значение по умолчанию: None

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

file_extension
str
значение по умолчанию: .parquet

Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".parquet". Если задано None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).

set_column_types
dict[str, DataType]
значение по умолчанию: None

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, будут оставаться в типе, загруженном из PARQUET-файла. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

Возвращаемое значение

Возвращает промежуточные данные, которые будут табличным набором данных.

Возвращаемый тип

Комментарии

Это преобразование будет применено только в том случае, если промежуточные данные используются в качестве входных данных последующего этапа. Оно не влияет на выходные данные, даже если передается в них.