DatasetSnapshot Класс

Ссылка

Управляет моментальными снимками наборов данных с помощью операций для получения моментального снимка, возврата его состояния и его преобразования в кадр данных.

Примечание

Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.

Объект DataSnapshot возвращается из метода create_snapshot класса Dataset.

Набор данных snapshot представляет собой сочетание профиля и необязательной материализованной копии данных.

Дополнительные сведения о моментальных снимках наборов данных см. на https://aka.ms/azureml/howto/createsnapshots

Наследование: builtins.object

DatasetSnapshot

Конструктор

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Параметры

workspace: <xref:azureml.core.Workspace.>

Обязательно

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name: str

Обязательно

Имя моментального снимка набора данных.

dataset_id: str

Обязательно

Идентификатор набора данных.

definition_version: str

Обязательно

Версия определения набора данных.

time_stamp: datetime

Обязательно

Время создания snapshot.

profile_action_id: str

Обязательно

Идентификатор действия профиля snapshot.

datastore_name: str

Обязательно

Имя хранилища данных snapshot.

relative_path: str

Обязательно

Относительный путь к данным snapshot.

dataset_name: str

Обязательно

Имя набора данных.

Методы

compare_profiles	Сравнивает текущий профиль набора данных с профилем rhs_dataset. Если профили не существуют, этот метод вызовет исключение.
get	Получение моментального снимка набора данных по имени моментального снимка.
get_all	Возвращает все моментальные снимки заданного набора данных.
get_profile	Возвращает профиль моментального снимка набора данных.
get_status	Возвращает состояние создания моментального снимка набора данных.
is_data_snapshot_available	Проверяет, доступен ли материализованный экземпляр моментального снимка.
to_pandas_dataframe	Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.
to_spark_dataframe	Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.
wait_for_completion	Дождитесь завершения создания DatasetSnapshot.

compare_profiles

Сравнивает текущий профиль набора данных с профилем rhs_dataset.

Если профили не существуют, этот метод вызовет исключение.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

rhs_dataset_snapshot: DatasetSnapshot

Обязательно

Моментальный снимок набора данных для сравнения.

include_columns: list[str]

значение по умолчанию: None

Список имен столбцов, учитываемых при сравнении.

exclude_columns: list[str]

значение по умолчанию: None

Список имен столбцов, исключаемых при сравнении.

histogram_compare_method: HistogramCompareMethod

значение по умолчанию: HistogramCompareMethod.WASSERSTEIN

Перечисление, описывающее метод сравнения, например, WASSERSTEIN или ENERGY.

Возвращаемое значение

Разница между профилями.

Возвращаемый тип

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Получение моментального снимка набора данных по имени моментального снимка.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Параметры

workspace: Workspace

Обязательно

Рабочая область, в которой зарегистрирован набор данных.

snapshot_name: str

Обязательно

Имя моментального снимка набора данных.

dataset_name

Обязательно

Имя набора данных.

dataset_id: uuid

Обязательно

Идентификатор набора данных.

Возвращаемое значение

Объект DatasetSnapshot.

Возвращаемый тип

DatasetSnapshot

get_all

Возвращает все моментальные снимки заданного набора данных.

static get_all(workspace, dataset_name)

Параметры

workspace: Workspace

Обязательно

Рабочая область, в которой зарегистрирован набор данных.

dataset_name

Обязательно

Имя набора данных.

Возвращаемое значение

Список моментальных снимков набора данных

Возвращаемый тип

list[DatasetSnapshot]

get_profile

Возвращает профиль моментального снимка набора данных.

get_profile()

Возвращаемое значение

Профиль данных моментального снимка набора данных

Возвращаемый тип

<xref:azureml.dataprep.DataProfile>

get_status

Возвращает состояние создания моментального снимка набора данных.

get_status()

Возвращаемое значение

Состояние моментального снимка набора данных.

Возвращаемый тип

str

is_data_snapshot_available

Проверяет, доступен ли материализованный экземпляр моментального снимка.

is_data_snapshot_available()

Возвращаемое значение

Значение True, если моментальный снимок данных доступен.

Возвращаемый тип

bool

to_pandas_dataframe

Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.

to_pandas_dataframe()

Возвращаемое значение

Кадр данных Pandas.

Возвращаемый тип

DataFrame

Кадр данных Pandas полностью материализован в памяти. Если моментальный снимок был создан с помощью create_data_snapshot=False, создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте функцию is_data_snapshot_available.

to_spark_dataframe

Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.

to_spark_dataframe()

Возвращаемое значение

Кадр данных Spark.

Возвращаемый тип

DataFrame

Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно. Если моментальный снимок был создан с помощью create_data_snapshot=False, при попытке получить доступ к данным создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте is_data_snapshot_available.

wait_for_completion

Дождитесь завершения создания DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Параметры

show_output: bool

значение по умолчанию: True

Указывает, позволяет ли метод печатать выходные данные.

status_update_frequency: int

значение по умолчанию: 10

Частота обновления состояния выполнения действия в секундах.

Атрибуты

dataset_id

Возвращает идентификатор набора данных.

Возвращаемое значение

Идентификатор набора данных.

Возвращаемый тип

str

name

Возвращает имя моментального снимка набора данных.

Возвращаемое значение

Имя моментального снимка набора данных.

Возвращаемый тип

str

workspace

Возвращает рабочую область Машинного обучения Azure, где зарегистрирован набор данных.

Возвращаемое значение

Рабочая область, в которой зарегистрирован набор данных.

Возвращаемый тип

Workspace

Share via

DatasetSnapshot Класс

Конструктор

Параметры

Методы

compare_profiles

Параметры

Возвращаемое значение

Возвращаемый тип

get

Параметры

Возвращаемое значение

Возвращаемый тип

get_all

Параметры

Возвращаемое значение

Возвращаемый тип

get_profile

Возвращаемое значение

Возвращаемый тип

get_status

Возвращаемое значение

Возвращаемый тип

is_data_snapshot_available

Возвращаемое значение

Возвращаемый тип

to_pandas_dataframe

Возвращаемое значение

Возвращаемый тип

Комментарии

to_spark_dataframe

Возвращаемое значение

Возвращаемый тип

Комментарии

wait_for_completion

Параметры

Атрибуты

dataset_id

Возвращаемое значение

Возвращаемый тип

name

Возвращаемое значение

Возвращаемый тип

workspace

Возвращаемое значение

Возвращаемый тип

Обратная связь

Обратная связь

Дополнительные ресурсы