PipelineOutputFileDataset Класс

Ссылка

Представляет промежуточные данные конвейера, уровень которых повышен до файлового набора данных Машинного обучения Azure.

После того как уровень промежуточных данных будет повышен до набора данных Машинного обучения Azure, их можно будет использовать на последующих этапах как набор данных, а не как DataReference.

Создайте промежуточные данные, которые будут повышены до набора данных Машинного обучения Azure.

Наследование: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Конструктор

PipelineOutputFileDataset(pipeline_data)

Параметры

pipeline_data: PipelineData

Обязательно

PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.

pipeline_data: PipelineData

Обязательно

PipelineData, представляющий промежуточные выходные данные, уровень которых будет повышен до набора данных.

Методы

as_direct	Задание "direct" (прямой) в качестве режима использования набора данных. В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных.
as_download	Задание "download" (скачивание) в качестве режима использования набора данных.
as_mount	Задание режима mount для использования набора данных.
parse_delimited_files	Преобразование промежуточного файлового набора данных в табличный набор данных. Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные.
parse_parquet_files	Преобразование промежуточного файлового набора данных в табличный набор данных. Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные.

as_direct

Задание "direct" (прямой) в качестве режима использования набора данных.

В этом режиме вы получите идентификатор набора данных и сможете вызвать Dataset.get_by_id в скрипте, чтобы получить набор данных. run.input_datasets['{dataset_name}'] возвратит набор данных.

as_direct()

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

PipelineOutputFileDataset

as_download

Задание "download" (скачивание) в качестве режима использования набора данных.

as_download(path_on_compute=None)

Параметры

path_on_compute: str

значение по умолчанию: None

Путь к вычислительному ресурсу, в который нужно скачать набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

PipelineOutputFileDataset

as_mount

Задание режима mount для использования набора данных.

as_mount(path_on_compute=None)

Параметры

path_on_compute: str

значение по умолчанию: None

Путь к вычислительному ресурсу, к которому нужно подключить набор данных. По умолчанию задано значение None, то есть Машинное обучение Azure выбирает путь.

Возвращаемое значение

Измененный PipelineOutputDataset.

Возвращаемый тип

PipelineOutputFileDataset

parse_delimited_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа файла (файлов) с разделителями, на которые указывают промежуточные выходные данные.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Параметры

include_path: bool

значение по умолчанию: False

Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

separator: str

значение по умолчанию: ,

Разделитель, используемый для разделения столбцов.

header: PromoteHeadersBehavior

значение по умолчанию: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Управляет повышением уровня заголовков столбцов при чтении из файлов. По умолчанию предполагается, что все файлы имеют одинаковый заголовок.

partition_format: str

значение по умолчанию: None

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.csvt", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.csv" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

file_extension: str

Обязательно

Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".csv", если разделителем является "," и ". tsv", если разделителем является TAB. В противном случае — None. Если передается None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).

set_column_types: dict[str, DataType]

значение по умолчанию: None

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, останутся со строковым типом. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

quoted_line_breaks: bool

значение по умолчанию: False

Следует ли обрабатывать символы новой строки в кавычках. Этот параметр может повлиять на производительность.

Возвращаемое значение

Возвращает промежуточные данные, которые будут табличным набором данных.

Возвращаемый тип

PipelineOutputTabularDataset

Это преобразование будет применено только в том случае, если промежуточные данные используются в качестве входных данных последующего этапа. Оно не влияет на выходные данные, даже если передается в них.

parse_parquet_files

Преобразование промежуточного файлового набора данных в табличный набор данных.

Табличный набор данных создается путем анализа PARQUET-файлов, на которые указывают промежуточные выходные данные.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Параметры

include_path: bool

значение по умолчанию: False

partition_format: str

значение по умолчанию: None

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

file_extension: str

значение по умолчанию: .parquet

Расширение файлов для чтения. Из каталога будут считываться только файлы с этим расширением. Значение по умолчанию — ".parquet". Если задано None, все файлы будут считываться независимо от их расширения (или при отсутствии расширения).

set_column_types: dict[str, DataType]

значение по умолчанию: None

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, будут оставаться в типе, загруженном из PARQUET-файла. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

Возвращаемое значение

Возвращает промежуточные данные, которые будут табличным набором данных.

Возвращаемый тип

PipelineOutputTabularDataset

Share via

PipelineOutputFileDataset Класс

Конструктор

Параметры

Методы

as_direct

Возвращаемое значение

Возвращаемый тип

as_download

Параметры

Возвращаемое значение

Возвращаемый тип

as_mount

Параметры

Возвращаемое значение

Возвращаемый тип

parse_delimited_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

parse_parquet_files

Параметры

Возвращаемое значение

Возвращаемый тип

Комментарии

Обратная связь

Обратная связь

Дополнительные ресурсы