DatasetSnapshot Класс

Управляет моментальными снимками наборов данных с помощью операций для получения моментального снимка, возврата его состояния и его преобразования в кадр данных.

Примечание

Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Объект DataSnapshot возвращается из метода create_snapshot класса Dataset.

Набор данных snapshot представляет собой сочетание профиля и необязательной материализованной копии данных.

Дополнительные сведения о моментальных снимках наборов данных см. на https://aka.ms/azureml/howto/createsnapshots

Наследование
builtins.object
DatasetSnapshot

Конструктор

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Параметры

workspace
<xref:azureml.core.Workspace.>
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name
str
Обязательно

Имя моментального снимка набора данных.

dataset_id
str
Обязательно

Идентификатор набора данных.

definition_version
str
Обязательно

Версия определения набора данных.

time_stamp
datetime
Обязательно

Время создания snapshot.

profile_action_id
str
Обязательно

Идентификатор действия профиля snapshot.

datastore_name
str
Обязательно

Имя хранилища данных snapshot.

relative_path
str
Обязательно

Относительный путь к данным snapshot.

dataset_name
str
Обязательно

Имя набора данных.

Методы

compare_profiles

Сравнивает текущий профиль набора данных с профилем rhs_dataset.

Если профили не существуют, этот метод вызовет исключение.

get

Получение моментального снимка набора данных по имени моментального снимка.

get_all

Возвращает все моментальные снимки заданного набора данных.

get_profile

Возвращает профиль моментального снимка набора данных.

get_status

Возвращает состояние создания моментального снимка набора данных.

is_data_snapshot_available

Проверяет, доступен ли материализованный экземпляр моментального снимка.

to_pandas_dataframe

Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.

to_spark_dataframe

Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.

wait_for_completion

Дождитесь завершения создания DatasetSnapshot.

compare_profiles

Сравнивает текущий профиль набора данных с профилем rhs_dataset.

Если профили не существуют, этот метод вызовет исключение.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

rhs_dataset_snapshot
DatasetSnapshot
Обязательно

Моментальный снимок набора данных для сравнения.

include_columns
list[str]
значение по умолчанию: None

Список имен столбцов, учитываемых при сравнении.

exclude_columns
list[str]
значение по умолчанию: None

Список имен столбцов, исключаемых при сравнении.

histogram_compare_method
HistogramCompareMethod
значение по умолчанию: HistogramCompareMethod.WASSERSTEIN

Перечисление, описывающее метод сравнения, например, WASSERSTEIN или ENERGY.

Возвращаемое значение

Разница между профилями.

Возвращаемый тип

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Получение моментального снимка набора данных по имени моментального снимка.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Параметры

workspace
Workspace
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name
str
Обязательно

Имя моментального снимка набора данных.

dataset_name
Обязательно

Имя набора данных.

dataset_id
uuid
Обязательно

Идентификатор набора данных.

Возвращаемое значение

Объект DatasetSnapshot.

Возвращаемый тип

get_all

Возвращает все моментальные снимки заданного набора данных.

static get_all(workspace, dataset_name)

Параметры

workspace
Workspace
Обязательно

Рабочая область, в которой зарегистрирован набор данных.

dataset_name
Обязательно

Имя набора данных.

Возвращаемое значение

Список моментальных снимков набора данных

Возвращаемый тип

get_profile

Возвращает профиль моментального снимка набора данных.

get_profile()

Возвращаемое значение

Профиль данных моментального снимка набора данных

Возвращаемый тип

<xref:azureml.dataprep.DataProfile>

get_status

Возвращает состояние создания моментального снимка набора данных.

get_status()

Возвращаемое значение

Состояние моментального снимка набора данных.

Возвращаемый тип

str

is_data_snapshot_available

Проверяет, доступен ли материализованный экземпляр моментального снимка.

is_data_snapshot_available()

Возвращаемое значение

Значение True, если моментальный снимок данных доступен.

Возвращаемый тип

to_pandas_dataframe

Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.

to_pandas_dataframe()

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

Комментарии

Кадр данных Pandas полностью материализован в памяти. Если моментальный снимок был создан с помощью create_data_snapshot=False, создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте функцию is_data_snapshot_available.

to_spark_dataframe

Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.

to_spark_dataframe()

Возвращаемое значение

Кадр данных Spark.

Возвращаемый тип

Комментарии

Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно. Если моментальный снимок был создан с помощью create_data_snapshot=False, при попытке получить доступ к данным создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте is_data_snapshot_available.

wait_for_completion

Дождитесь завершения создания DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Параметры

show_output
bool
значение по умолчанию: True

Указывает, позволяет ли метод печатать выходные данные.

status_update_frequency
int
значение по умолчанию: 10

Частота обновления состояния выполнения действия в секундах.

Атрибуты

dataset_id

Возвращает идентификатор набора данных.

Возвращаемое значение

Идентификатор набора данных.

Возвращаемый тип

str

name

Возвращает имя моментального снимка набора данных.

Возвращаемое значение

Имя моментального снимка набора данных.

Возвращаемый тип

str

workspace

Возвращает рабочую область Машинного обучения Azure, где зарегистрирован набор данных.

Возвращаемое значение

Рабочая область, в которой зарегистрирован набор данных.

Возвращаемый тип