Datastore Classe

Representa uma abstração de armazenamento em uma conta de armazenamento Azure Machine Learning.

Os armazenamentos de dados são anexados a espaços de trabalho e são usados para armazenar informações de conexão para os serviços de armazenamento do Azure para que você possa consultá-los por nome e não precisa se lembrar das informações de conexão e do segredo usado para se conectar aos serviços de armazenamento.

Exemplos de serviços de armazenamento do Azure com suporte que podem ser registrados como repositórios de armazenamento são:

  • Contêiner de blob do Azure

  • Compartilhamento de arquivos do Azure

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Banco de Dados SQL do Azure

  • Banco de Dados do Azure para PostgreSQL

  • Sistema de arquivos do Databricks

  • Banco de Dados do Azure para MySQL

Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e remover repositórios de armazenamento. Os repositórios de armazenamento de cada serviço são criados com os register* métodos dessa classe. Ao usar um datastore para acessar dados, você deve ter permissão para acessar esses dados, o que depende das credenciais registradas com o repositório de dados.

Para obter mais informações sobre armazenamentos de dados e como eles podem ser usados no Machine Learning, consulte os seguintes artigos:

Herança
builtins.object
Datastore

Construtor

Datastore(workspace, name=None)

Comentários

Para interagir com os dados em seus armazenamentos de computadores para tarefas de aprendizado de máquina, como treinamento, crie um conjunto de dados Azure Machine Learning. Os conjuntos de dados fornecem funções que carregam dados tabulares em um dataframe do Pandas ou do Spark. Os conjuntos de dados também permitem baixar ou montar arquivos em qualquer formato do Armazenamento de Blobs do Azure, dos Arquivos do Azure, do Azure Data Lake Storage Gen1, do Azure Data Lake Storage Gen2, do Banco de Dados SQL do Azure e do Banco de Dados do Azure para PostgreSQL. Saiba mais sobre como treinar com conjuntos de dados.

O exemplo a seguir mostra como criar um repositório de armazenamento conectado ao contêiner de blob do Azure.


   from msrest.exceptions import HttpOperationError

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except HttpOperationError:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Métodos

get

Obter um repositório de armazenamento por nome. Isso é o mesmo que chamar o construtor.

get_default

Obtenha o repositório de armazenamento padrão para o espaço de trabalho.

register_azure_blob_container

Registrar um contêiner de blob do Azure no repositório de armazenamento.

O acesso a dados baseado em credencial (GA) e baseada em identidade (versão prévia) tem suporte, você pode optar por usar o token SAS ou a chave da conta de armazenamento. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

register_azure_data_lake

Inicialize um novo repositório de Azure Data Lake de armazenamento.

Há suporte para o acesso a dados baseado em credencial (GA) e com base na identidade (versão prévia), você pode registrar um repositório de dados com a entidade de serviço para acesso com base em credenciais. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um repositório de armazenamento.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Inicialize um novo repositório de Azure Data Lake Gen2.

Há suporte para o acesso a dados baseado em credencial (GA) e com base na identidade (versão prévia), você pode registrar um repositório de dados com a entidade de serviço para acesso com base em credenciais. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

register_azure_file_share

Registre um compartilhamento de arquivos do Azure no repositório de armazenamento.

Você pode optar por usar o token SAS ou a chave da conta de armazenamento

register_azure_my_sql

Inicialize um novo Azure MySQL datastore.

O repositório de dados MySQL só pode ser usado para criar referência de datareferente como entrada e saída para DataTransferStep em pipelines de Azure Machine Learning. Mais detalhes podem ser encontrados aqui.

Consulte abaixo para obter um exemplo de como registrar um banco de dados MySQL do Azure como um datastore.

register_azure_postgre_sql

Inicialize um novo repositório de armazenamento do PostgreSQL do Azure.

Consulte abaixo para obter um exemplo de como registrar um banco de dados PostgreSQL do Azure como um datastore.

register_azure_sql_database

Inicialize um novo armazenamento de dados do banco de dados SQL do Azure.

O acesso a dados baseado em credencial (GA) e baseada em identidade (versão prévia) tem suporte, você pode optar por usar a entidade de serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

Consulte abaixo para obter um exemplo de como registrar um banco de dados SQL do Azure como um datastore.

register_dbfs

Inicializar um novo repositório de armazenamento de DBFS (sistema de arquivos do databricks).

O armazenamento de dados DBFS só pode ser usado para criar a referência de datareferente como entrada e PipelineData como saída para DatabricksStep em pipelines Azure Machine Learning. Mais detalhes podem ser encontrados aqui..

set_as_default

Defina o repositório de armazenamento padrão.

unregister

Cancela o registro do repositório de armazenamento. o serviço de armazenamento subjacente não será excluído.

get

Obter um repositório de armazenamento por nome. Isso é o mesmo que chamar o construtor.

get(workspace, datastore_name)

Parâmetros

workspace
Workspace

O workspace.

datastore_name
<xref:str>, <xref:optional>

O nome do repositório de armazenamento, por padrão, é None, que obtém o repositório de armazenamento padrão.

Retornos

O repositório de armazenamento correspondente para esse nome.

Tipo de retorno

get_default

Obtenha o repositório de armazenamento padrão para o espaço de trabalho.

get_default(workspace)

Parâmetros

workspace
Workspace

O workspace.

Retornos

O repositório de armazenamento padrão para o espaço de trabalho

Tipo de retorno

register_azure_blob_container

Registrar um contêiner de blob do Azure no repositório de armazenamento.

O acesso a dados baseado em credencial (GA) e baseada em identidade (versão prévia) tem suporte, você pode optar por usar o token SAS ou a chave da conta de armazenamento. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parâmetros

workspace
Workspace

O workspace.

datastore_name
<xref:str>

O nome do repositório de dados, não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _.

container_name
<xref:str>

O nome do contêiner de blob do Azure.

account_name
<xref:str>

O nome da conta de armazenamento.

sas_token
<xref:str>, <xref:optional>
valor padrão: None

Um token de SAS de conta, o padrão é nenhum. Para leitura de dados, exigimos um mínimo de lista & permissões de leitura para contêineres & objetos e para gravação de dados, além de exigirem permissões de gravação & adicionar.

account_key
<xref:str>, <xref:optional>
valor padrão: None

Chaves de acesso da sua conta de armazenamento, o padrão é nenhum.

protocol
<xref:str>, <xref:optional>
valor padrão: None

Protocolo a ser usado para se conectar ao contêiner de BLOB. Se nenhum, o padrão é https.

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade da conta de armazenamento. Se nenhum, o padrão é core.windows.net.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Substitui um repositório de armazenamento existente. Se o repositório de armazenamento não existir, ele criará um, o padrão será false

create_if_not_exists
<xref:bool>, <xref:optional>
valor padrão: False

criar o compartilhamento de arquivos se ele não existir, o padrão será false

skip_validation
<xref:bool>, <xref:optional>
valor padrão: False

ignora a validação de chaves de armazenamento, o padrão é false

blob_cache_timeout
<xref:int>, <xref:optional>
valor padrão: None

Quando esse blob for montado, defina o tempo limite do cache para esse número de segundos. Se nenhum, o padrão é sem tempo limite (ou seja, BLOBs serão armazenados em cache durante o trabalho quando lidos).

grant_workspace_access
<xref:bool>, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-a como true para acessar dados por trás da rede virtual do Machine Learning Studio. isso torna o acesso a dados do Machine Learning Studio usar identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como um leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais ' https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network '

subscription_id
<xref:str>, <xref:optional>
valor padrão: None

A ID da assinatura da conta de armazenamento, por padrão, é None.

resource_group
<xref:str>, <xref:optional>
valor padrão: None

O grupo de recursos da conta de armazenamento, por padrão, é None.

Retornos

O armazenamento de BLOBs.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.

register_azure_data_lake

Inicialize um novo repositório de Azure Data Lake de armazenamento.

Há suporte para o acesso a dados baseado em credencial (GA) e com base na identidade (versão prévia), você pode registrar um repositório de dados com a entidade de serviço para acesso com base em credenciais. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um repositório de armazenamento.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

store_name
<xref:str>

O nome da loja ADLS.

tenant_id
<xref:str>, <xref:optional>
valor padrão: None

A ID de diretório/ID de locatário da entidade de serviço usada para acessar dados.

client_id
<xref:str>, <xref:optional>
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço usada para acessar dados.

client_secret
<xref:str>, <xref:optional>
valor padrão: None

O segredo do cliente da entidade de serviço usada para acessar dados.

resource_url
<xref:str>, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no repositório de Data Lake, se nenhum, usa como padrão o https://datalake.azure.net/ que nos permite executar operações de sistema de arquivos.

authority_url
<xref:str>, <xref:optional>
valor padrão: None

A URL de autoridade usada para autenticar o usuário, o padrão é https://login.microsoftonline.com .

subscription_id
<xref:str>, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório ADLS pertence.

resource_group
<xref:str>, <xref:optional>
valor padrão: None

O grupo de recursos ao qual o repositório ADLS pertence.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

grant_workspace_access
<xref:bool>, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-a como true para acessar dados por trás da rede virtual do Machine Learning Studio. isso torna o acesso a dados do Machine Learning Studio usar identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como um leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais ' https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network '

Retornos

Retorna o repositório de armazenamento de Azure Data Lake.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.

Observação

Azure Data Lake o armazenamento de dados dá suporte à transferência e execução de trabalhos do U-SQL usando pipelines Azure Machine Learning.

Você também pode usá-lo como uma fonte de dados para Azure Machine Learning conjunto que pode ser baixado ou montado em qualquer computação com suporte.

register_azure_data_lake_gen2

Inicialize um novo repositório de Azure Data Lake Gen2.

Há suporte para o acesso a dados baseado em credencial (GA) e com base na identidade (versão prévia), você pode registrar um repositório de dados com a entidade de serviço para acesso com base em credenciais. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

filesystem
<xref:str>

O nome do sistema de arquivos Data Lake Gen2.

account_name
<xref:str>

O nome da conta de armazenamento.

tenant_id
<xref:str>, <xref:optional>
valor padrão: None

A ID de diretório/ID de locatário da entidade de serviço.

client_id
<xref:str>, <xref:optional>
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço.

client_secret
<xref:str>, <xref:optional>
valor padrão: None

O segredo da entidade de serviço.

resource_url
<xref:str>, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no data Lake Store, o padrão para o https://storage.azure.com/ qual nos permite executar operações do sistema de arquivos.

authority_url
<xref:str>, <xref:optional>
valor padrão: None

A URL de autoridade usada para autenticar o usuário, o padrão é https://login.microsoftonline.com .

protocol
<xref:str>, <xref:optional>
valor padrão: None

Protocolo a ser usado para se conectar ao contêiner de BLOB. Se nenhum, o padrão é https.

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade da conta de armazenamento. Se nenhum, o padrão é core.windows.net.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

subscription_id
<xref:str>, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório ADLS pertence.

resource_group
<xref:str>, <xref:optional>
valor padrão: None

O grupo de recursos ao qual o repositório ADLS pertence.

grant_workspace_access
<xref:bool>, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-a como true para acessar dados por trás da rede virtual do Machine Learning Studio. isso torna o acesso a dados do Machine Learning Studio usar identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como um leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais ' https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network '

Retornos

Retorna o repositório de armazenamento do Azure Data Lake Gen2.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.

register_azure_file_share

Registre um compartilhamento de arquivos do Azure no repositório de armazenamento.

Você pode optar por usar o token SAS ou a chave da conta de armazenamento

register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de dados, não diferencia maiúsculas de minúsculas, só pode conter caracteres alfanuméricos e _.

file_share_name
<xref:str>

O nome do contêiner de arquivos do Azure.

account_name
<xref:str>

O nome da conta de armazenamento.

sas_token
<xref:str>, <xref:optional>
valor padrão: None

Um token de SAS de conta, o padrão é nenhum. Para leitura de dados, exigimos um mínimo de lista & permissões de leitura para contêineres & objetos e para gravação de dados, além de exigirem permissões de gravação & adicionar.

account_key
<xref:str>, <xref:optional>
valor padrão: None

Chaves de acesso da sua conta de armazenamento, o padrão é nenhum.

protocol
<xref:str>, <xref:optional>
valor padrão: None

O protocolo a ser usado para se conectar ao compartilhamento de arquivos. Se nenhum, o padrão é https.

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade do compartilhamento de arquivos. Se nenhum, o padrão é core.windows.net.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

create_if_not_exists
<xref:bool>, <xref:optional>
valor padrão: False

Se o compartilhamento de arquivos deve ser criado, caso ele não exista. O padrão é False.

skip_validation
<xref:bool>, <xref:optional>
valor padrão: False

Se a validação das chaves de armazenamento deve ser ignorada. O padrão é False.

Retornos

O repositório de arquivos de arquivo.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.

register_azure_my_sql

Inicialize um novo Azure MySQL datastore.

O repositório de dados MySQL só pode ser usado para criar referência de datareferente como entrada e saída para DataTransferStep em pipelines de Azure Machine Learning. Mais detalhes podem ser encontrados aqui.

Consulte abaixo para obter um exemplo de como registrar um banco de dados MySQL do Azure como um datastore.

register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

server_name
<xref:str>

O nome do servidor MySQL.

database_name
<xref:str>

O nome do banco de dados MySQL.

user_id
<xref:str>

A ID de usuário do servidor MySQL.

user_password
<xref:str>

A senha do usuário do servidor MySQL.

port_number
<xref:str>
valor padrão: None

O número da porta do servidor MySQL.

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade do servidor MySQL. Se nenhum, o padrão é mysql.database.azure.com.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

Retornos

Retorna o repositório de dados MySQL.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicialize um novo repositório de armazenamento do PostgreSQL do Azure.

Consulte abaixo para obter um exemplo de como registrar um banco de dados PostgreSQL do Azure como um datastore.

register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

server_name
<xref:str>

O nome do servidor PostgreSQL.

database_name
<xref:str>

O nome do banco de dados PostgreSQL.

user_id
<xref:str>

A ID de usuário do servidor PostgreSQL.

user_password
<xref:str>

A senha do usuário do servidor PostgreSQL.

port_number
<xref:str>
valor padrão: None

O número da porta do servidor PostgreSQL

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade do servidor PostgreSQL. Se nenhum, o padrão é postgres.database.azure.com.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

enforce_ssl
<xref:bool>
valor padrão: True

Indica o requisito SSL do servidor PostgreSQL. O padrão é true.

Retornos

Retorna o datastore do banco de dados PostgreSQL.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicialize um novo armazenamento de dados do banco de dados SQL do Azure.

O acesso a dados baseado em credencial (GA) e baseada em identidade (versão prévia) tem suporte, você pode optar por usar a entidade de serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o repositório de dados, o token do AAD dos usuários será usado no notebook ou no programa Python local se ele chamar diretamente uma dessas funções: filedataset. Mount filedataset. download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo experimento. envie para autenticação de acesso a dados. Saiba mais aqui

Consulte abaixo para obter um exemplo de como registrar um banco de dados SQL do Azure como um datastore.

register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

server_name
<xref:str>

O nome do SQL Server. Para um nome de domínio totalmente qualificado como "sample.database.windows.net", o valor de server_name deve ser "Sample" e o valor do ponto de extremidade deve ser "database.windows.net".

database_name
<xref:str>

Nome do banco de dados SQL.

tenant_id
<xref:str>
valor padrão: None

A ID de diretório/ID de locatário da entidade de serviço.

client_id
<xref:str>
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço.

client_secret
<xref:str>
valor padrão: None

O segredo da entidade de serviço.

resource_url
<xref:str>, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no repositório de banco de dados SQL, se nenhum, usa como padrão https://database.windows.net/ .

authority_url
<xref:str>, <xref:optional>
valor padrão: None

A URL de autoridade usada para autenticar o usuário, o padrão é https://login.microsoftonline.com .

endpoint
<xref:str>, <xref:optional>
valor padrão: None

O ponto de extremidade do SQL Server. Se nenhum, o padrão é database.windows.net.

overwrite
<xref:bool>, <xref:optional>
valor padrão: False

Se um repositório de armazenamento existente deve ser substituído. Se o repositório de armazenamento não existir, ele criará um. O padrão é False.

username
<xref:str>
valor padrão: None

O nome do usuário do banco de dados para acessar o banco de dados.

password
<xref:str>
valor padrão: None

A senha do usuário do banco de dados para acessar o banco de dados.

skip_validation
<xref:bool>, <xref:optional>
valor padrão: None

Se a validação da conexão com o banco de dados SQL deve ser ignorada. Usa False como padrão.

subscription_id
<xref:str>, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório ADLS pertence.

resource_group
<xref:str>, <xref:optional>
valor padrão: False

O grupo de recursos ao qual o repositório ADLS pertence.

grant_workspace_access
<xref:bool>, <xref:optional>

Usa False como padrão. Defina-a como true para acessar dados por trás da rede virtual do Machine Learning Studio. isso torna o acesso a dados do Machine Learning Studio usar identidade gerenciada do espaço de trabalho para autenticação e adiciona a identidade gerenciada do espaço de trabalho como um leitor do armazenamento. Você precisa ser proprietário ou administrador de acesso de usuário do armazenamento para aceitar. Peça ao administrador para configurá-lo para você se você não tiver a permissão necessária. Saiba mais ' https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network '

Retornos

Retorna o datastore do banco de dados SQL.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicializar um novo repositório de armazenamento de DBFS (sistema de arquivos do databricks).

O armazenamento de dados DBFS só pode ser usado para criar a referência de datareferente como entrada e PipelineData como saída para DatabricksStep em pipelines Azure Machine Learning. Mais detalhes podem ser encontrados aqui..

register_dbfs(workspace, datastore_name)

Parâmetros

workspace
Workspace

O espaço de trabalho ao qual este repositório de armazenamento pertence.

datastore_name
<xref:str>

O nome do repositório de armazenamento.

Retornos

Retorna o repositório de armazenamento do DBFS.

Tipo de retorno

Comentários

Se você estiver anexando armazenamento de região diferente da região do espaço de trabalho, isso poderá resultar em maior latência e custos de uso de rede adicionais.

set_as_default

Defina o repositório de armazenamento padrão.

set_as_default()

Parâmetros

datastore_name
<xref:str>

O nome do repositório de armazenamento.

unregister

Cancela o registro do repositório de armazenamento. o serviço de armazenamento subjacente não será excluído.

unregister()