DatasetSnapshot Класс
Управляет моментальными снимками наборов данных с помощью операций для получения моментального снимка, возврата его состояния и его преобразования в кадр данных.
Примечание
Этот класс устарел. Для получения дополнительной информации см. https://aka.ms/dataset-deprecation.
Объект DataSnapshot возвращается из метода create_snapshot класса Dataset.
Набор данных snapshot представляет собой сочетание профиля и необязательной материализованной копии данных.
Дополнительные сведения о моментальных снимках наборов данных см. на https://aka.ms/azureml/howto/createsnapshots
- Наследование
-
builtins.objectDatasetSnapshot
Конструктор
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Параметры
- workspace
- <xref:azureml.core.Workspace.>
Рабочая область, в которой зарегистрирован набор данных.
Методы
compare_profiles |
Сравнивает текущий профиль набора данных с профилем rhs_dataset. Если профили не существуют, этот метод вызовет исключение. |
get |
Получение моментального снимка набора данных по имени моментального снимка. |
get_all |
Возвращает все моментальные снимки заданного набора данных. |
get_profile |
Возвращает профиль моментального снимка набора данных. |
get_status |
Возвращает состояние создания моментального снимка набора данных. |
is_data_snapshot_available |
Проверяет, доступен ли материализованный экземпляр моментального снимка. |
to_pandas_dataframe |
Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка. |
to_spark_dataframe |
Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка. |
wait_for_completion |
Дождитесь завершения создания DatasetSnapshot. |
compare_profiles
Сравнивает текущий профиль набора данных с профилем rhs_dataset.
Если профили не существуют, этот метод вызовет исключение.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Параметры
Список имен столбцов, учитываемых при сравнении.
Список имен столбцов, исключаемых при сравнении.
- histogram_compare_method
- HistogramCompareMethod
Перечисление, описывающее метод сравнения, например, WASSERSTEIN или ENERGY.
Возвращаемое значение
Разница между профилями.
Возвращаемый тип
get
Получение моментального снимка набора данных по имени моментального снимка.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Параметры
- dataset_name
Имя набора данных.
Возвращаемое значение
Объект DatasetSnapshot.
Возвращаемый тип
get_all
Возвращает все моментальные снимки заданного набора данных.
static get_all(workspace, dataset_name)
Параметры
- dataset_name
Имя набора данных.
Возвращаемое значение
Список моментальных снимков набора данных
Возвращаемый тип
get_profile
Возвращает профиль моментального снимка набора данных.
get_profile()
Возвращаемое значение
Профиль данных моментального снимка набора данных
Возвращаемый тип
get_status
Возвращает состояние создания моментального снимка набора данных.
get_status()
Возвращаемое значение
Состояние моментального снимка набора данных.
Возвращаемый тип
is_data_snapshot_available
Проверяет, доступен ли материализованный экземпляр моментального снимка.
is_data_snapshot_available()
Возвращаемое значение
Значение True, если моментальный снимок данных доступен.
Возвращаемый тип
to_pandas_dataframe
Создает кадр данных Pandas путем загрузки данных, сохраненных с помощью моментального снимка.
to_pandas_dataframe()
Возвращаемое значение
Кадр данных Pandas.
Возвращаемый тип
Комментарии
Кадр данных Pandas полностью материализован в памяти. Если моментальный снимок был создан с помощью create_data_snapshot=False
, создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте функцию is_data_snapshot_available.
to_spark_dataframe
Создает таблицу данных Spark путем загрузки данных, сохраненных с помощью моментального снимка.
to_spark_dataframe()
Возвращаемое значение
Кадр данных Spark.
Возвращаемый тип
Комментарии
Возвращенный кадр данных Spark является единственным планом выполнения и фактически не содержит никаких данных, так как оценка кадров данных Spark выполняется медленно. Если моментальный снимок был создан с помощью create_data_snapshot=False
, при попытке получить доступ к данным создается исключение. Чтобы проверить, содержит ли моментальный снимок данные, используйте is_data_snapshot_available.
wait_for_completion
Дождитесь завершения создания DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Параметры
- show_output
- bool
Указывает, позволяет ли метод печатать выходные данные.
- status_update_frequency
- int
Частота обновления состояния выполнения действия в секундах.
Атрибуты
dataset_id
Возвращает идентификатор набора данных.
Возвращаемое значение
Идентификатор набора данных.
Возвращаемый тип
name
Возвращает имя моментального снимка набора данных.
Возвращаемое значение
Имя моментального снимка набора данных.
Возвращаемый тип
workspace
Возвращает рабочую область Машинного обучения Azure, где зарегистрирован набор данных.
Возвращаемое значение
Рабочая область, в которой зарегистрирован набор данных.
Возвращаемый тип
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по