Создание ресурсов данных и управление ими

Статья
06/21/2023

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

В этой статье показано, как создавать ресурсы данных и управлять ими в Машинное обучение Azure.

Ресурсы данных могут помочь при необходимости в следующих возможностях:

Управление версиями. Ресурсы данных поддерживают управление версиями данных.
Воспроизводимость. После создания версии ресурса данных она неизменяема. Его нельзя изменить или удалить. Таким образом, можно воспроизвести задания обучения или конвейеры, использующие ресурс данных.
Возможность аудита. Так как версия ресурса данных неизменяема, можно отслеживать версии ресурсов, которые обновили версию и когда произошли обновления версий.
Происхождение: для любого заданного ресурса данных можно просмотреть задания или конвейеры, которые используют данные.
Простота использования: ресурс данных машинного обучения Azure напоминает закладки веб-браузера (избранное). Вместо запоминания длинных путей хранения (URI), ссылающихся на часто используемые данные на служба хранилища Azure, можно создать версию ресурса данных, а затем получить доступ к этой версии ресурса с понятным именем (например: azureml:<my_data_asset_name>:<version>).

Совет

Чтобы получить доступ к данным в интерактивном сеансе (например, записной книжке) или задании, вам не нужно сначала создать ресурс данных. Для доступа к данным можно использовать URI хранилища данных. URI хранилища данных предоставляют простой способ доступа к данным для тех, кто начинает работу с машинным обучением Azure.

Необходимые компоненты

Для создания ресурсов данных и работы с ними требуются компоненты, указанные ниже.

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.
Рабочая область Машинного обучения Azure. Создание ресурсов рабочей области.
Установлен Машинное обучение Azure CLI/SDK.

Создание ресурсов данных

При создании ресурса данных необходимо задать тип ресурса данных. Машинное обучение Azure поддерживает три типа ресурсов данных:

Тип	API	Канонические сценарии
Файл Ссылка на один файл	`uri_file`	Чтение одного файла на служба хранилища Azure (файл может иметь любой формат).
Папка Ссылка на папку	`uri_folder`	Чтение папки parquet/CSV-файлов в Pandas/Spark. Чтение неструктурированных данных (изображений, текста, звука и т. д.), расположенных в папке.
Таблицу Ссылка на таблицу данных	`mltable`	У вас есть сложная схема с частыми изменениями или требуется подмножество больших табличных данных. AutoML с таблицами. Чтение неструктурированных данных (изображений, текста, звука и т. д.), которые распределяются по нескольким расположениям хранилища.

Примечание.

Не используйте внедренные новые линии в CSV-файлах, если данные не регистрируются в качестве MLTable. Внедренные новые линии в CSV-файлах могут привести к неправильному значению поля при чтении данных. MLTable имеет этот параметр support_multi_lineв read_delimited преобразовании, чтобы интерпретировать разрывы строк в кавычках как одну запись.

При использовании ресурса данных в задании Машинное обучение Azure можно подключить или скачать ресурс на вычислительные узлы. Дополнительные сведения см. в режимах чтения.

Кроме того, необходимо указать параметр, указывающий path на расположение ресурса данных. К поддерживаемым путям относятся:

Местонахождение	Примеры
Путь к локальному компьютеру	`./home/username/data/my_data`
Путь к хранилищу данных	`azureml://datastores/<data_store_name>/paths/<path>`
Путь к общедоступному HTTP(S)-серверу	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Путь к службе хранилища Azure	(БОЛЬШОЙ двоичный объект) `wasbs://<containername>@<accountname>.blob.core.windows.net/<path_to_data>/` (ADLS 2-го поколения) `abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>` (ADLS 1-го поколения) `adl://<accountname>.azuredatalakestore.net/<path_to_data>/`

Примечание.

При создании ресурса данных из локального пути он автоматически отправляется в хранилище данных по умолчанию Машинное обучение Azure облачного хранилища данных.

Создание ресурса данных: тип файла

Ресурс данных, представляющий собой тип файла (uri_file), указывает на один файл в хранилище (например, CSV-файл). Вы можете создать ресурс данных с типизированным файлом, используя следующее:

Создайте файл YAML и скопируйте и вставьте следующий код. Заполнители необходимо обновить <> с именем ресурса данных, версией, описанием и путем к одному файлу в поддерживаемом расположении.

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'

type: uri_file
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
path: <SUPPORTED PATH>

Затем выполните следующую команду в CLI (обновите <filename> заполнитель до имени файла YAML):

az ml data create -f <filename>.yml

Чтобы создать ресурс данных, который является типом файла, используйте следующий код и обновите <> заполнители своими сведениями.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'
path = "<SUPPORTED PATH>"

# Define the Data asset object
my_data = Data(
    path=path,
    type=AssetTypes.URI_FILE,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Создание ресурса данных: тип папки

Ресурс данных, представляющий собой тип папки (uri_folder), указывает на папку в хранилище (например, папку, содержащую несколько вложенных папок изображений). Вы можете создать ресурс данных с типизированным типом папки, используя следующее:

Создайте файл YAML и скопируйте и вставьте следующий код. Заполнители необходимо обновить <> с именем ресурса данных, версией, описанием и путем к папке в поддерживаемом расположении.

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<folder>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<folder>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<folder>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<folder>'

type: uri_folder
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
path: <SUPPORTED PATH>

Затем выполните следующую команду в ИНТЕРФЕЙСе командной строки (обновите <filename> заполнитель до имени файла YAML):

az ml data create -f <filename>.yml

Чтобы создать ресурс данных, который является типом папки, используйте следующий код и обновите <> заполнители с вашей информацией.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<folder>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<folder>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<folder>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<folder>'
path = "<SUPPORTED PATH>"

# Define the Data asset object
my_data = Data(
    path=path,
    type=AssetTypes.URI_FOLDER,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Создание ресурса данных: тип таблицы

Машинное обучение Azure таблицы (MLTable) имеют широкие функциональные возможности, подробно описанные в статье "Работа с таблицами в Машинное обучение Azure". Вместо повторения этой документации мы предоставляем пример создания ресурса данных с типизированными таблицами, используя титанические данные, расположенные на общедоступной Хранилище BLOB-объектов Azure учетной записи.

Сначала создайте новый каталог, называемый данными, и создайте файл с именем MLTable:

mkdir data
touch MLTable

Затем скопируйте и вставьте следующий YAML в файл MLTable , созданный на предыдущем шаге:

Внимание

Не переименуйте файл MLTable.yaml в MLTable илиMLTable.yml. Машинное обучение Azure ожидает MLTable файл.

paths:
- file: wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv
transformations:
- read_delimited:
    delimiter: ','
    empty_as_string: false
    encoding: utf8
    header: all_files_same_headers
    include_path_column: false
    infer_column_types: true
    partition_size: 20971520
    path_column: Path
    support_multi_line: false
- filter: col('Age') > 0
- drop_columns:
  - PassengerId
- convert_column_types:
  - column_type:
      boolean:
        false_values:
        - 'False'
        - 'false'
        - '0'
        mismatch_as: error
        true_values:
        - 'True'
        - 'true'
        - '1'
    columns: Survived
type: mltable

Затем выполните следующую команду в интерфейсе командной строки. Обязательно обновите <> заполнители с использованием имени ресурса данных и значений версии.

az ml data create --path ./data --name <DATA ASSET NAME> --version <VERSION> --type mltable

Важно!

Должно path быть папка , содержащая допустимый MLTable файл.

Используйте следующий код для создания ресурса данных, который является типом таблицы (mltable) и обновления <> заполнителей с помощью сведений.

import mltable
from mltable import MLTableHeaders, MLTableFileEncoding, DataType
from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# create paths to the data files
paths = [{"file": "wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv"}]

# create an MLTable from the data files
tbl = mltable.from_delimited_files(
    paths=paths,
    delimiter=",",
    header=MLTableHeaders.all_files_same_headers,
    infer_column_types=True,
    include_path_column=False,
    encoding=MLTableFileEncoding.utf8,
)

# filter out rows undefined ages
tbl = tbl.filter("col('Age') > 0")

# drop PassengerId
tbl = tbl.drop_columns(["PassengerId"])

# ensure survived column is treated as boolean
data_types = {
    "Survived": DataType.to_bool(
        true_values=["True", "true", "1"], false_values=["False", "false", "0"]
    )
}
tbl = tbl.convert_column_types(data_types)

# show the first few records
print(tbl.show())

# save the data loading steps in an MLTable file
mltable_folder = "./titanic"
tbl.save(mltable_folder)

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Define the Data asset object
my_data = Data(
    path=mltable_folder,
    type=AssetTypes.MLTABLE,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version="<SET VERSION HERE>",
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Важно!

В настоящее время пользовательский интерфейс Studio имеет ограниченные функциональные возможности для создания типизированных ресурсов таблицы (MLTable). Рекомендуется использовать пакет SDK Для Python для создания и создания типизированных ресурсов данных таблицы (MLTable).

Создание ресурсов данных из выходных данных задания

Вы можете создать ресурс данных из задания Машинное обучение Azure, задав name параметр в выходных данных. В этом примере вы отправляете задание, которое копирует данные из общедоступного хранилища BLOB-объектов в хранилище данных по умолчанию Машинное обучение Azure datastore и создает ресурс данных с именемjob_output_titanic_asset.

Создайте файл YAML спецификации задания (<file-name>.yml):

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json

# path: Set the URI path for the data. Supported paths include
# local: `./<path>
# Blob: wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>
# ADLS: abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>
# Datastore: azureml://datastores/<data_store_name>/paths/<path>
# Data Asset: azureml:<my_data>:<version>

# type: What type of data are you pointing to?
# uri_file (a specific file)
# uri_folder (a folder)
# mltable (a table)

# mode: Set INPUT mode:
# ro_mount (read-only mount)
# download (download from storage to node)
# mode: Set the OUTPUT mode
# rw_mount (read-write mount)
# upload (upload data from node to storage)

type: command
command: cp ${{inputs.input_data}} ${{outputs.output_data}}
compute: azureml:cpu-cluster
environment: azureml://registries/azureml/environments/sklearn-1.1/versions/4
inputs:
  input_data:
    mode: ro_mount
    path: azureml:wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv
    type: uri_file
outputs:
  output_data:
    mode: rw_mount
    path: azureml://datastores/workspaceblobstore/paths/quickstart-output/titanic.csv
    type: uri_file
    name: job_output_titanic_asset

Затем отправьте задание с помощью интерфейса командной строки:

az ml job create --file <file-name>.yml

from azure.ai.ml import command, Input, Output, MLClient
from azure.ai.ml.constants import AssetTypes, InputOutputModes
from azure.identity import DefaultAzureCredential

# Set your subscription, resource group and workspace name:
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

# connect to the AzureML workspace
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# ==============================================================
# Set the input and output URI paths for the data. Supported paths include:
# local: `./<path>
# Blob: wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>
# ADLS: abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>
# Datastore: azureml://datastores/<data_store_name>/paths/<path>
# Data Asset: azureml:<my_data>:<version>
# As an example, we set the input path to a file on a public blob container
# As an example, we set the output path to a folder in the default datastore
# ==============================================================
input_path = "wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv"
output_path = "azureml://datastores/workspaceblobstore/paths/quickstart-output/titanic.csv"

# ==============================================================
# What type of data are you pointing to?
# AssetTypes.URI_FILE (a specific file)
# AssetTypes.URI_FOLDER (a folder)
# AssetTypes.MLTABLE (a table)
# The path we set above is a specific file
# ==============================================================
data_type = AssetTypes.URI_FILE

# ==============================================================
# Set the input mode. The most commonly-used modes:
# InputOutputModes.RO_MOUNT
# InputOutputModes.DOWNLOAD
# Set the mode to Read Only (RO) to mount the data
# ==============================================================
input_mode = InputOutputModes.RO_MOUNT

# ==============================================================
# Set the output mode. The most commonly-used modes:
# InputOutputModes.RW_MOUNT
# InputOutputModes.UPLOAD
# Set the mode to Read Write (RW) to mount the data
# ==============================================================
output_mode = InputOutputModes.RW_MOUNT

# ==============================================================
# Set a data asset name for the output
# ==============================================================
data_asset_name = "job_output_titanic_asset"

# Set the input and output for the job:
inputs = {
    "input_data": Input(type=data_type, path=input_path, mode=input_mode)
}

outputs = {
    "output_data": Output(type=data_type, path=output_path, mode=output_mode, name = data_asset_name)
}

# This command job copies the data to your default Datastore
job = command(
    command="cp ${{inputs.input_data}} ${{outputs.output_data}}",
    inputs=inputs,
    outputs=outputs,
    environment="azureml://registries/azureml/environments/sklearn-1.1/versions/4",
    compute="cpu-cluster",
)

# Submit the command
ml_client.jobs.create_or_update(job)

Управление ресурсами-контейнерами данных

Удаление ресурса данных

Важно!

По проектированию удаление ресурса данных не поддерживается.

Если машинное обучение Azure позволило удалить ресурс данных, это приведет к следующим негативным последствиям:

Рабочие задания , использующие ресурсы данных, которые были удалены позже, завершится сбоем.
Было бы труднее воспроизвести эксперимент машинного обучения.
Происхождение заданий будет нарушено, так как невозможно просмотреть удаленную версию ресурса данных.
Вы не сможете правильно отслеживать и проверять , так как версии могут быть отсутствуют.

Таким образом, неизменяемость ресурсов данных обеспечивает уровень защиты при работе в команде, создавая рабочие нагрузки рабочей среды.

Если ресурс данных был ошибочно создан, например с неправильным именем, типом или путем, Машинное обучение Azure предлагает решения для обработки ситуации без негативных последствий удаления:

Я хочу удалить этот ресурс данных, так как...	Решение
Неправильное имя	Архивация ресурса данных
Команда больше не использует ресурс данных	Архивация ресурса данных
Он загромождает список ресурсов данных	Архивация ресурса данных
Неправильный путь	Создайте новую версию ресурса данных (то же имя) с правильным путем. Дополнительные сведения см. в статье "Создание ресурсов данных".
Он имеет неправильный тип	В настоящее время Машинное обучение Azure не позволяет создавать новую версию с другим типом по сравнению с исходной версией. (1) Архивация ресурса данных (2) Создайте новый ресурс данных под другим именем с правильным типом.

Архивация ресурса данных

Архивация ресурса данных по умолчанию скрывается из обоих запросов списка (например, в CLI az ml data list) и в списке ресурсов данных в пользовательском интерфейсе Studio. Вы по-прежнему можете ссылаться и использовать архивированный ресурс данных в рабочих процессах. Вы можете архивировать:

все версии ресурса данных под заданным именем или
определенная версия ресурса данных

Архивация всех версий ресурса данных

Чтобы архивировать все версии ресурса данных под заданным именем, используйте следующую команду:

Выполните следующую команду (обновите <> заполнитель с именем ресурса данных):

az ml data archive --name <NAME OF DATA ASSET>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.archive(name="<DATA ASSET NAME>")

Архивация определенной версии ресурса данных

Чтобы архивировать определенную версию ресурса данных, используйте:

Выполните следующую команду (обновите <> заполнители с именем ресурса данных и версией):

az ml data archive --name <NAME OF DATA ASSET> --version <VERSION TO ARCHIVE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.archive(name="<DATA ASSET NAME>", version="<VERSION TO ARCHIVE>")

Восстановление архивированного ресурса данных

Архивный ресурс данных можно восстановить. Если архивируются все версии ресурса данных, восстановление отдельных версий ресурса данных невозможно. Необходимо восстановить все версии.

Восстановление всех версий ресурса данных

Чтобы восстановить все версии ресурса данных под заданным именем, используйте следующую команду:

Выполните следующую команду (обновите <> заполнитель с именем ресурса данных):

az ml data restore --name <NAME OF DATA ASSET>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.restore(name="<DATA ASSET NAME>")

Восстановление определенной версии ресурса данных

Важно!

Если все версии ресурса данных были архивированы, вы не можете восстановить отдельные версии ресурса данных. Необходимо восстановить все версии.

Чтобы восстановить определенную версию ресурса данных, используйте:

Выполните следующую команду (обновите <> заполнители с именем ресурса данных и версией):

az ml data restore --name <NAME OF DATA ASSET> --version <VERSION TO ARCHIVE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.restore(name="<DATA ASSET NAME>", version="<VERSION TO ARCHIVE>")

Происхождение данных

Происхождение данных широко понимается как жизненный цикл, охватывающий источник данных, и где он перемещается с течением времени в хранилище. Различные типы сценариев обратного просмотра используют его, например устранение неполадок, трассировку первопричин в конвейерах машинного обучения и отладку. Кроме того, используется анализ качества данных, соответствие требованиям и сценарии "что если". Происхождение представляется визуально для отображения данных, перемещаемых из источника в место назначения, а также охватывает преобразования данных. Учитывая сложность большинства корпоративных сред данных, эти представления могут стать трудно понять без консолидации или маскирования периферийных точек данных.

В конвейере Машинное обучение Azure ресурсы данных показывают происхождение данных и способ обработки данных, например:

Screenshot showing data lineage in the job details.

Вы можете просмотреть задания, использующие ресурс данных в пользовательском интерфейсе Студии. Сначала выберите "Данные " в меню слева и выберите имя ресурса данных. Вы можете увидеть задания, которые используют ресурс данных:

Screenshot that shows the jobs that consume a data asset.

Представление заданий в ресурсах данных упрощает поиск сбоев заданий и выполнение анализа маршрутов в конвейерах машинного обучения и отладке.

Тег ресурса данных

Ресурсы данных поддерживают теги, которые являются дополнительными метаданными, применяемыми к ресурсу данных в виде пары "ключ-значение". Теги данных предоставляют множество преимуществ:

Описание качества данных. Например, если в вашей организации используется архитектура medallion lakehouse, можно пометить ресурсы с medallion:bronze помощью (необработанных), medallion:silver (проверено) и medallion:gold (обогащено).
Обеспечивает эффективный поиск и фильтрацию данных, чтобы помочь в обнаружении данных.
Помогает выявлять конфиденциальные персональные данные, правильно управлять доступом к данным и управлять ими. Например, sensitivity:PII/sensitivity:nonPII.
Определите, утверждены ли данные из ответственного аудита ИИ (RAI). Например, RAI_audit:approved/RAI_audit:todo.

Теги можно добавить в ресурсы данных в рамках процесса создания или добавить теги в существующие ресурсы данных. В этом разделе показаны оба.

Добавление тегов в рамках потока создания ресурса данных

Создайте ФАЙЛ YAML и скопируйте и вставьте следующий код. Заполнители необходимо обновить <> с именем ресурса данных, версией, описанием, тегами (парами "ключ-значение") и путем к одному файлу в поддерживаемом расположении.

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'

# Data asset types, use one of:
# uri_file, uri_folder, mltable

type: uri_file
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
tags:
    <KEY1>: <VALUE>
    <KEY2>: <VALUE>
path: <SUPPORTED PATH>

Затем выполните следующую команду в CLI (обновите <filename> заполнитель до имени файла YAML):

az ml data create -f <filename>.yml

Чтобы создать ресурс данных типа файла, используйте следующий код и обновите <> заполнители с информацией.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'
path = "<SUPPORTED PATH>"

# Set the type, use on of the following asset type constants:
# AssetTypes.URI_FILE, AssetTypes.URI_FOLDER, AssetTypes.MLTABLE
data_asset_type = AssetTypes.<TYPE>

# Set the tags - update with your key-value pairs
tags = {
    "<KEY1>:" "<VALUE>"
    "<KEY2>:" "<VALUE>"
}

# Define the Data asset object
my_data = Data(
    path=path,
    type=data_asset_type,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
    tags=tags,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Добавление тегов в существующий ресурс данных

Выполните следующую команду в Azure CLI и обновите <> заполнители с именем ресурса данных, версией и парой "ключ-значение" для тега.

az ml data update --name <DATA ASSET NAME> --version <VERSION> --set tags.<KEY>=<VALUE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Get the data asset in the workspace
data = ml_client.data.get(name="<DATA ASSET NAME>", version="<VERSION>")

# add a tag
tags = {
    "<KEY1>": "<VALUE>",
    "<KEY2>": "<VALUE>",
}

# add the tags to the data asset object
data.tags = tags

# update the data asset in your workspace
ml_client.data.create_or_update(data)

Создание ресурсов данных и управление ими

Необходимые компоненты

Создание ресурсов данных

Создание ресурса данных: тип файла

Создание ресурса данных: тип папки

Создание ресурса данных: тип таблицы

Создание ресурсов данных из выходных данных задания

Управление ресурсами-контейнерами данных

Удаление ресурса данных

Архивация ресурса данных

Архивация всех версий ресурса данных

Архивация определенной версии ресурса данных

Восстановление архивированного ресурса данных

Восстановление всех версий ресурса данных

Восстановление определенной версии ресурса данных

Происхождение данных

Тег ресурса данных

Добавление тегов в рамках потока создания ресурса данных

Добавление тегов в существующий ресурс данных

Рекомендации по управлению версиями

Следующие шаги

Дополнительные ресурсы