Datastore Класс

Представляет абстракцию хранилища для учетной записи хранения Машинного обучения Azure.

Хранилища данных подключаются к рабочим областям и используются для хранения сведений о подключении к службам хранилища Azure, чтобы можно было ссылаться на них по имени, не запоминая сведения о подключении и секреты, используемые для подключения к службам хранилища.

Примеры поддерживаемых служб хранилища Azure, которые можно зарегистрировать в качестве хранилищ данных:

  • контейнер BLOB-объектов Azure;

  • Общая папка Azure

  • Azure Data Lake

  • Azure Data Lake 2-го поколения

  • База данных SQL Azure

  • База данных Azure для PostgreSQL

  • Файловая система Databricks

  • База данных Azure для MySQL

Этот класс используется для выполнения операций управления, включая регистрацию, вывод списка, получение и удаление хранилищ данных. Хранилища данных для каждой службы создаются с помощью методов register* этого класса. Для доступа к данным с использованием хранилища необходимо иметь соответствующее разрешение, которое зависит от учетных данных, зарегистрированных в этом хранилище.

Дополнительные сведения о хранилищах данных и способах их использования в машинном обучении см. в следующих статьях:

Возвращает хранилище данных по имени. Этот вызов выполнит запрос к службе хранилища данных.

Наследование
builtins.object
Datastore

Конструктор

Datastore(workspace, name=None)

Параметры

workspace
Workspace
Обязательно

Рабочая область.

name
str, <xref:optional>
значение по умолчанию: None

Имя хранилища данных по умолчанию имеет значение None, которое получает хранилище данных по умолчанию.

Комментарии

Для взаимодействия с данными в хранилищах данных для задач машинного обучения, таких как обучение, создайте набор данных Машинного обучения Azure. Наборы данных предоставляют функции, которые загружают табличные данные в таблицу данных Pandas или Spark. Кроме того, наборы данных позволяют скачивать или подключать файлы любого формата из хранилища BLOB-объектов Azure, Файлов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, базы данных SQL Azure и базы данных Azure для PostgreSQL. Узнайте больше об обучении с наборами данных.

В следующем примере показано, как создавать хранилище данных, подключенное к контейнеру BLOB-объектов Azure.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Методы

get

Возвращает хранилище данных по имени. Данное действие аналогично вызову конструктора.

get_default

Возвращает хранилище данных по умолчанию для рабочей области.

register_azure_blob_container

Регистрирует контейнер BLOB-объектов Azure в хранилище данных.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать маркер SAS или ключ учетной записи службы хранилища. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_data_lake

Инициализирует новое хранилище данных озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации озера данных Azure Gen1 в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Инициализирует новое хранилище данных озера данных Azure Gen2.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_file_share

Регистрация общей папки Azure в качестве хранилища данных.

Можно выбрать использование маркера SAS или ключа учетной записи службы хранилища

register_azure_my_sql

Инициализирует новое хранилище данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных для DataTransferStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

register_azure_postgre_sql

Инициализирует новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

register_azure_sql_database

Инициализирует новое хранилище данных Azure SQL.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать субъект-службу или имя пользователя + пароль. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure SQL в качестве хранилища данных.

register_dbfs

Инициализирует новое хранилище данных Файловой системы Databricks (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных для DatabricksStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

register_hdfs

Примечание

Это экспериментальный метод, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Инициализировать новое хранилище данных HDFS.

set_as_default

Устанавливает хранилище данных по умолчанию.

unregister

Отменяет регистрацию хранилища данных. базовая служба хранилища не будет удалена.

get

Возвращает хранилище данных по имени. Данное действие аналогично вызову конструктора.

static get(workspace, datastore_name)

Параметры

workspace
Workspace
Обязательно

Рабочая область.

datastore_name
str, <xref:optional>
Обязательно

Имя хранилища данных по умолчанию имеет значение None, которое получает хранилище данных по умолчанию.

Возвращаемое значение

Соответствующее хранилище данных для этого имени.

Возвращаемый тип

get_default

Возвращает хранилище данных по умолчанию для рабочей области.

static get_default(workspace)

Параметры

workspace
Workspace
Обязательно

Рабочая область.

Возвращаемое значение

Хранилище данных по умолчанию для рабочей области

Возвращаемый тип

register_azure_blob_container

Регистрирует контейнер BLOB-объектов Azure в хранилище данных.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать маркер SAS или ключ учетной записи службы хранилища. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Параметры

workspace
Workspace
Обязательно

Рабочая область.

datastore_name
str
Обязательно

Имя хранилища данных может содержать только буквенно-цифровые символы и _ без учета регистра.

container_name
str
Обязательно

Имя контейнера BLOB-объектов Azure.

account_name
str
Обязательно

имя учетной записи хранения.

sas_token
str, <xref:optional>
значение по умолчанию: None

Значение маркера SAS учетной записи по умолчанию — None. Для чтения данных требуются как минимум разрешения List & Чтение для контейнеров & объектов, а для записи данных — разрешения на запись & добавить.

account_key
str, <xref:optional>
значение по умолчанию: None

Ключам доступа учетной записи хранения по умолчанию задано значение None.

protocol
str, <xref:optional>
значение по умолчанию: None

Протокол, используемый для подключения к контейнеру BLOB-объектов. При значении None по умолчанию используется HTTPS.

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка учетной записи хранения. При значении None по умолчанию используется core.windows.net.

overwrite
bool, <xref:optional>
значение по умолчанию: False

перезаписывает существующее хранилище данных. Если хранилище данных не существует, оно будет создано, значение по умолчанию — False

create_if_not_exists
bool, <xref:optional>
значение по умолчанию: False

создает контейнер BLOB-объектов, если он не существует, значение по умолчанию — False

skip_validation
bool, <xref:optional>
значение по умолчанию: False

пропускает проверку ключей хранилища, значение по умолчанию — False

blob_cache_timeout
int, <xref:optional>
значение по умолчанию: None

При подключении этого BLOB-объекта установите время ожидания кэша на заданное количество секунд. При значении None по умолчанию используется значение без времени ожидания (т.е. BLOB-объекты будут кэшироваться на время выполнения задания при чтении).

grant_workspace_access
bool, <xref:optional>
значение по умолчанию: False

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

subscription_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор подписки учетной записи хранения, значение по умолчанию None.

resource_group
str, <xref:optional>
значение по умолчанию: None

Группа ресурсов учетной записи хранения, значение по умолчанию — None.

Возвращаемое значение

Хранилище данных BLOB-объектов.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_data_lake

Инициализирует новое хранилище данных озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации озера данных Azure Gen1 в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

store_name
str
Обязательно

Имя хранилища ADLS.

tenant_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор каталога/идентификатор клиента субъекта-службы, используемой для доступа к данным.

client_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор клиента/идентификатор приложения субъекта-службы, используемой для доступа к данным.

client_secret
str, <xref:optional>
значение по умолчанию: None

Секрет клиента субъекта-службы, используемой для доступа к данным.

resource_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище данных озера данных Azure (при значении None, по умолчанию используется https://datalake.azure.net/), что позволяет выполнять операции файловой системы.

authority_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

subscription_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор подписки, к которой принадлежит хранилище ADLS.

resource_group
str, <xref:optional>
значение по умолчанию: None

Группа ресурсов, к которой принадлежит хранилище ADLS.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

grant_workspace_access
bool, <xref:optional>
значение по умолчанию: False

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Возвращаемое значение

Возвращает хранилище данных озера данных Azure.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

Примечание

Хранилище данных Azure Data Lake поддерживает перенос и выполнение заданий U-Sql с помощью конвейеров Машинного обучения Azure.

Его также можно использовать в качестве источника данных для набора данных Машинного обучения Azure, который можно скачать или подключить в любом поддерживаемом вычислении.

register_azure_data_lake_gen2

Инициализирует новое хранилище данных озера данных Azure Gen2.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

filesystem
str
Обязательно

Имя файловой системы Azure Data Lake 2-го поколения.

account_name
str
Обязательно

имя учетной записи хранения.

tenant_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор каталога/идентификатор клиента субъекта-службы.

client_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор клиента или идентификатор приложения субъекта-службы.

client_secret
str, <xref:optional>
значение по умолчанию: None

Секрет субъекта-службы.

resource_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище данных озера данных (по умолчанию используется https://storage.azure.com/), что позволяет выполнять операции файловой системы.

authority_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

protocol
str, <xref:optional>
значение по умолчанию: None

Протокол, используемый для подключения к контейнеру BLOB-объектов. При значении None по умолчанию используется HTTPS.

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка учетной записи хранения. При значении None по умолчанию используется core.windows.net.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

subscription_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор подписки, к которой принадлежит хранилище ADLS.

resource_group
str, <xref:optional>
значение по умолчанию: None

Группа ресурсов, к которой принадлежит хранилище ADLS.

grant_workspace_access
bool, <xref:optional>
значение по умолчанию: False

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Возвращаемое значение

Возвращает хранилище данных Azure Data Lake 2-го поколения.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_file_share

Регистрация общей папки Azure в качестве хранилища данных.

Можно выбрать использование маркера SAS или ключа учетной записи службы хранилища

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных может содержать только буквенно-цифровые символы и _ без учета регистра.

file_share_name
str
Обязательно

Имя контейнера файлов Azure.

account_name
str
Обязательно

имя учетной записи хранения.

sas_token
str, <xref:optional>
значение по умолчанию: None

Значение маркера SAS учетной записи по умолчанию — None. Для чтения данных требуются как минимум разрешения List & Чтение для контейнеров & объектов, а для записи данных — разрешения на запись & добавить.

account_key
str, <xref:optional>
значение по умолчанию: None

Ключам доступа учетной записи хранения по умолчанию задано значение None.

protocol
str, <xref:optional>
значение по умолчанию: None

Протокол, используемый для подключения к общей папке. При значении None по умолчанию используется HTTPS.

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка общей папки. При значении None по умолчанию используется core.windows.net.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

create_if_not_exists
bool, <xref:optional>
значение по умолчанию: False

Следует ли создать общую папку, если она не существует. Значение по умолчанию — False.

skip_validation
bool, <xref:optional>
значение по умолчанию: False

Следует ли пропустить проверку ключей хранилища. Значение по умолчанию — False.

Возвращаемое значение

Файловое хранилище данных.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_my_sql

Инициализирует новое хранилище данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных для DataTransferStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

server_name
str
Обязательно

Имя сервера MySQL.

database_name
str
Обязательно

Имя базы данных MySQL.

user_id
str
Обязательно

Идентификатор пользователя сервера MySQL.

user_password
str
Обязательно

Пароль пользователя сервера MySQL.

port_number
str
значение по умолчанию: None

Номер порта пользователя сервера MySQL.

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка сервера MySQL. При значении None по умолчанию используется mysql.database.azure.com.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Возвращаемое значение

Возвращает хранилище данных базы данных MySQL.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Инициализирует новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

server_name
str
Обязательно

Имя сервера PostgreSQL.

database_name
str
Обязательно

Имя базы данных PostgreSQL.

user_id
str
Обязательно

Идентификатор пользователя сервера PostgreSQL.

user_password
str
Обязательно

Пароль пользователя сервера PostgreSQL.

port_number
str
значение по умолчанию: None

Номер порта сервера PostgreSQL

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка сервера PostgreSQL. При значении None по умолчанию используется postgres.database.azure.com.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

enforce_ssl
bool
значение по умолчанию: True

Указывает требование SSL для сервера PostgreSQL. Значение по умолчанию — True.

Возвращаемое значение

Возвращает хранилище данных базы данных PostgreSQL.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Инициализирует новое хранилище данных Azure SQL.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать субъект-службу или имя пользователя + пароль. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure SQL в качестве хранилища данных.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

server_name
str
Обязательно

Имя сервера SQL. Для полного доменного имени, например "sample.database.windows.net", значение server_name должно быть "sample", а значение конечной точки должно быть "database.windows.net".

database_name
str
Обязательно

Имя базы данных SQL.

tenant_id
str
значение по умолчанию: None

Идентификатор каталога/идентификатор клиента субъекта-службы.

client_id
str
значение по умолчанию: None

Идентификатор клиента или идентификатор приложения субъекта-службы.

client_secret
str
значение по умолчанию: None

Секрет субъекта-службы.

resource_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище базы данных SQL, при значении None будет по умолчанию иметь значение https://database.windows.net/.

authority_url
str, <xref:optional>
значение по умолчанию: None

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

endpoint
str, <xref:optional>
значение по умолчанию: None

Конечная точка сервера SQL. При значении None по умолчанию используется database.windows.net.

overwrite
bool, <xref:optional>
значение по умолчанию: False

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

username
str
значение по умолчанию: None

Имя пользователя базы данных для доступа к базе данных.

password
str
значение по умолчанию: None

Пароль пользователя базы данных для доступа к базе данных.

skip_validation
bool, <xref:optional>
Обязательно

Следует ли пропустить проверку подключения к базе данных SQL. Значение по умолчанию — False.

subscription_id
str, <xref:optional>
значение по умолчанию: None

Идентификатор подписки, к которой принадлежит хранилище ADLS.

resource_group
str, <xref:optional>
значение по умолчанию: None

Группа ресурсов, к которой принадлежит хранилище ADLS.

grant_workspace_access
bool, <xref:optional>
значение по умолчанию: False

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Возвращаемое значение

Возвращает хранилище данных базы данных SQL.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Инициализирует новое хранилище данных Файловой системы Databricks (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных для DatabricksStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

static register_dbfs(workspace, datastore_name)

Параметры

workspace
Workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
str
Обязательно

Имя хранилища данных.

Возвращаемое значение

Возвращает хранилище данных DBFS.

Возвращаемый тип

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_hdfs

Примечание

Это экспериментальный метод, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Инициализировать новое хранилище данных HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Параметры

workspace
Workspace
Обязательно

рабочая область, к которой принадлежит это хранилище данных

datastore_name
str
Обязательно

имя хранилища данных

protocol
str или <xref:_restclient.models.enum>
Обязательно

протокол, используемый при взаимодействии с кластером HDFS. http или https. Возможные значения: "http", "https"

namenode_address
str
Обязательно

IP-адрес или имя узла DNS узла имен HDFS. При необходимости включает порт.

hdfs_server_certificate
str, <xref:optional>
Обязательно

Путь к сертификату для подписи TLS узла имен HDFS при использовании TLS с самозаверяющим сертификатом.

kerberos_realm
str
Обязательно

Область определения приложения Kerberos.

kerberos_kdc_address
str
Обязательно

IP-адрес или имя узла DNS центра распространения ключей Kerberos.

kerberos_principal
str
Обязательно

Субъект Kerberos, используемый для проверки подлинности и авторизации.

kerberos_keytab
str, <xref:optional>
Обязательно

Путь к файлу keytab, содержащему ключи, соответствующие субъекту Kerberos. Укажите либо путь к файлу keytab, либо пароль.

kerberos_password
str, <xref:optional>
Обязательно

Пароль, соответствующий субъекту Kerberos. Укажите либо пароль, либо путь к файлу keytab.

overwrite
bool, <xref:optional>
Обязательно

перезаписывает существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

set_as_default

Устанавливает хранилище данных по умолчанию.

set_as_default()

Параметры

datastore_name
str
Обязательно

Имя хранилища данных.

unregister

Отменяет регистрацию хранилища данных. базовая служба хранилища не будет удалена.

unregister()