AbstractDataset Класс

Базовый класс наборов данных в Машинном обучении Azure.

Для создания экземпляров набора данных следует ссылаться на классы TabularDatasetFactory и FileDatasetFactory.

Конструктор Класса AbstractDataset.

Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью TabularDatasetFactory класса и FileDatasetFactory класса .

Наследование
builtins.object
AbstractDataset

Конструктор

AbstractDataset()

Методы

add_tags

Добавление пар "ключ-значение" в словарь тегов этого набора данных.

as_named_input

Укажите имя для этого набора данных, которое будет использоваться для получения материализованных наборов данных в запуске.

get_all

Получение всех зарегистрированных наборов данных в рабочей области.

get_by_id

Получает набор данных, который сохраняется в рабочей области.

get_by_name

Получение из рабочей области зарегистрированного набора данных по имени регистрации.

get_partition_key_values

Возвращение уникальных значений ключа "partition_keys".

проверить, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвратить уникальные значения ключа partition_keys, по умолчанию возвратить уникальные сочетания ключа, используя полный набор ключей разделов этого набора данных, если partition_keys имеет значение "None"


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Регистрация набора данных в предоставленной рабочей области.

remove_tags

Удалить указанные ключи из словаря тегов этого набора данных.

unregister_all_versions

Отмените регистрацию всех версий с именем регистрации этого набора данных из рабочей области.

update

Выполните обновление действующего набора данных.

add_tags

Добавление пар "ключ-значение" в словарь тегов этого набора данных.

add_tags(tags=None)

Параметры

tags
dict[str, str]
Обязательно

Словарь тегов для добавления.

Возвращаемое значение

Обновленный объект набора данных.

Возвращаемый тип

as_named_input

Укажите имя для этого набора данных, которое будет использоваться для получения материализованных наборов данных в запуске.

as_named_input(name)

Параметры

name
str
Обязательно

Имя набора данных для запуска.

Возвращаемое значение

Объект конфигурации, описывающий, как следует материализовать набор данных при выполнении.

Возвращаемый тип

Комментарии

Это имя будет применяться только в процессе выполнения Машинного обучения Azure. Имя должно содержать только буквы, цифры и символы подчеркивания, чтобы его можно было сделать доступным в качестве переменной среды. Это имя можно использовать для получения набора данных в контексте выполнения с помощью двух подходов:

  • Переменная среды:

    Имя будет представлять собой имя переменной среды, а материализованный набор данных будет доступен в качестве значения переменной среды. Если набор данных скачан / подключен, то значением будет путь скачивания / подключения. Пример:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Примечание

Если набор данных внесен в прямом режиме, то значением будет идентификатор набора данных. Далее можно выполнить следующее.

Получить объект набора данных, выполнив команду Dataset.get_by_id(os.environ['foo'])

  • Run.input_datasets:

    Это словарь, где ключ будет именем набора данных, указанным в этом методе, а значение будет материализованным набором данных. Для скачанного и подключенного набора данных значением будет путь скачивания / подключения. В прямом режиме значением будет тот же объект набора данных, который указан в сценарии отправки задания.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Получение всех зарегистрированных наборов данных в рабочей области.

static get_all(workspace)

Параметры

workspace
Workspace
Обязательно

Существующая рабочая область AzureML, в которой зарегистрированы наборы данных.

Возвращаемое значение

Словарь объектов TabularDataset и FileDataset, для которого в качестве ключа применяется имя регистрации.

Возвращаемый тип

get_by_id

Получает набор данных, который сохраняется в рабочей области.

static get_by_id(workspace, id, **kwargs)

Параметры

workspace
Workspace
Обязательно

Существующая рабочая область AzureML, в которой сохранен набор данных.

id
str
Обязательно

Идентификатор набора данных.

Возвращаемое значение

Объект набора данных. Если набор данных зарегистрирован, будут также возвращены версия и имя регистрации.

Возвращаемый тип

get_by_name

Получение из рабочей области зарегистрированного набора данных по имени регистрации.

static get_by_name(workspace, name, version='latest', **kwargs)

Параметры

workspace
Workspace
Обязательно

Существующая рабочая область AzureML, в которой был зарегистрирован набор данных.

name
str
Обязательно

Имя регистрации.

version
int
Обязательно

Версия регистрации. По умолчанию имеет значение latest.

Возвращаемое значение

Зарегистрированный объект набора данных.

Возвращаемый тип

get_partition_key_values

Возвращение уникальных значений ключа "partition_keys".

проверить, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвратить уникальные значения ключа partition_keys, по умолчанию возвратить уникальные сочетания ключа, используя полный набор ключей разделов этого набора данных, если partition_keys имеет значение "None"


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Параметры

partition_keys
list[str]
Обязательно

ключи секций

register

Регистрация набора данных в предоставленной рабочей области.

register(workspace, name, description=None, tags=None, create_new_version=False)

Параметры

workspace
Workspace
Обязательно

Рабочая область для регистрации набора данных.

name
str
Обязательно

Имя для регистрации набора данных.

description
str
Обязательно

Текстовое описание набора данных. Значение по умолчанию — "None".

tags
dict[str, str]
Обязательно

Словарь тегов значений ключа для предоставления набора данных. Значение по умолчанию — "None".

create_new_version
bool
Обязательно

Логическое значение для регистрации набора данных в качестве новой версии с указанным именем.

Возвращаемое значение

Зарегистрированный объект набора данных.

Возвращаемый тип

remove_tags

Удалить указанные ключи из словаря тегов этого набора данных.

remove_tags(tags=None)

Параметры

tags
list[str]
Обязательно

Список ключей для удаления.

Возвращаемое значение

Обновленный объект набора данных.

Возвращаемый тип

unregister_all_versions

Отмените регистрацию всех версий с именем регистрации этого набора данных из рабочей области.

unregister_all_versions()

Комментарии

Эта операция не изменяет исходные данные.

update

Выполните обновление действующего набора данных.

update(description=None, tags=None)

Параметры

description
str
Обязательно

Новое описание, используемое для набора данных. Данное описание заменяет существующее описание. По умолчанию используется существующее описание. Чтобы очистить описание, введите пустую строку.

tags
dict[str, str]
Обязательно

Словарь тегов для обновления набора данных. Эти теги заменяют существующие теги для набора данных. По умолчанию используются существующие теги. Чтобы удалить теги, введите пустой словарь.

Возвращаемое значение

Обновленный объект набора данных.

Возвращаемый тип

Атрибуты

data_changed_time

Возврат времени изменения исходных данных.

Возвращаемое значение

Время, когда произошло самое последнее изменение в источнике данных.

Возвращаемый тип

Комментарии

Время изменения данных доступно для файлового источника данных. Значение "None" возвращается, если источник данных не поддерживается для проверки того, когда произошло изменение.

description

Возврат описания регистрации.

Возвращаемое значение

Описание набора данных.

Возвращаемый тип

str

id

Возврат идентификатора набора данных.

Возвращаемое значение

Идентификатор набора данных. Если набор данных не сохранен в какой-либо рабочей области, идентификатор будет иметь значение "None".

Возвращаемый тип

str

name

Возврат имени регистрации.

Возвращаемое значение

Имя набора данных.

Возвращаемый тип

str

partition_keys

Возврат ключей секций.

Возвращаемое значение

ключи секций

Возвращаемый тип

tags

Возврат тегов регистрации.

Возвращаемое значение

Теги набора данных.

Возвращаемый тип

str

version

Возврат версии регистрации.

Возвращаемое значение

Версия набора данных.

Возвращаемый тип

int