Datastore Classe

Riferimento

Rappresenta un'astrazione dell'archiviazione su un account di archiviazione di Azure Machine Learning.

Gli archivi dati sono collegati alle aree di lavoro e vengono usati per archiviare le informazioni di connessione ai servizi di archiviazione di Azure in modo da poterli fare riferimento in base al nome e non è necessario ricordare le informazioni di connessione e il segreto usati per connettersi ai servizi di archiviazione.

Esempi di servizi di archiviazione di Azure supportati che possono essere registrati come archivi dati sono:

Contenitore BLOB di Azure
Condivisione file di Azure
Azure Data Lake
Azure Data Lake Gen2
Database SQL di Azure
Database di Azure per PostgreSQL
File system di Databricks
Database di Azure per MySQL

Usare questa classe per eseguire operazioni di gestione, tra cui registrare, elencare, ottenere e rimuovere archivi dati. Gli archivi dati per ogni servizio vengono creati con i register* metodi di questa classe. Quando si usa un archivio dati per accedere ai dati, è necessario disporre dell'autorizzazione per accedere ai dati, che dipendono dalle credenziali registrate con l'archivio dati.

Per altre informazioni sugli archivi dati e su come possono essere usati in Machine Learning, vedere gli articoli seguenti:

Ottenere un archivio dati in base al nome. Questa chiamata eseguirà una richiesta al servizio di archiviazione dati.

Ereditarietà: builtins.object

Datastore

Costruttore

Datastore(workspace, name=None)

Parametri

workspace: Workspace

Necessario

Area di lavoro.

name: str, <xref:optional>

valore predefinito: None

Il nome dell'archivio dati, il valore predefinito è Nessuno, che ottiene l'archivio dati predefinito.

Commenti

Per interagire con i dati negli archivi dati per le attività di Machine Learning, ad esempio il training, creare un set di dati di Azure Machine Learning. I set di dati forniscono funzioni per il caricamento dei dati tabulari in un dataframe Pandas o Spark. I set di dati consentono inoltre di scaricare o montare file di qualsiasi formato da Archiviazione BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database SQL di Azure e Database di Azure per PostgreSQL. Vedere altre informazioni su come eseguire il training con i set di dati.

Nell'esempio seguente viene illustrato come creare un archivio dati connesso a Contenitore BLOB di Azure.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Metodi

get	Ottenere un archivio dati in base al nome. Equivale a chiamare il costruttore.
get_default	Ottenere l'archivio dati predefinito per l'area di lavoro.
register_azure_blob_container	Registrare un contenitore BLOB di Azure nell'archivio dati. Sono supportati l'accesso ai dati basato sulle credenziali (GA) e l'accesso ai dati basato su identità (anteprima), è possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione. Se non vengono salvate credenziali con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni.
register_azure_data_lake	Inizializzare un nuovo archivio dati di Azure Data Lake. L'accesso ai dati basato su credenziali (GA) e identity based (anteprima) è supportato, è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basati sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, verrà usato il token AAD degli utenti nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni. Per un esempio di come registrare azure Data Lake Gen1 come archivio dati, vedere di seguito. adlsgen1_datastore_name='adlsgen1datastore' store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal adls_datastore = Datastore.register_azure_data_lake( workspace=ws, datastore_name=aslsgen1_datastore_name, subscription_id=subscription_id, # subscription id of ADLS account resource_group=resource_group, # resource group of ADLS account store_name=store_name, # ADLS account name tenant_id=tenant_id, # tenant id of service principal client_id=client_id, # client id of service principal client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2	Inizializzare un nuovo archivio dati di Azure Data Lake Gen2. L'accesso ai dati basato su credenziali (GA) e identity based (anteprima) è supportato, è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basati sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, verrà usato il token AAD degli utenti nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni.
register_azure_file_share	Registrare una condivisione file di Azure nell'archivio dati. È possibile scegliere di usare token di firma di accesso condiviso o chiave dell'account di archiviazione
register_azure_my_sql	Inizializzare un nuovo archivio dati di Azure MySQL. L'archivio dati MySQL può essere usato solo per creare DataReference come input e output in DataTransferStep nelle pipeline di Azure Machine Learning. Altre informazioni sono disponibili qui. Per un esempio di come registrare un database Azure MySQL come archivio dati, vedere di seguito.
register_azure_postgre_sql	Inizializzare un nuovo archivio dati di Azure PostgreSQL. Per un esempio di come registrare un database di Azure PostgreSQL come archivio dati, vedere di seguito.
register_azure_sql_database	Inizializzare un nuovo archivio dati del database Azure SQL. L'accesso ai dati basato sulle credenziali (GA) e basato su identità (anteprima) è supportato, è possibile scegliere di usare Entità servizio o nome utente + password. Se non viene salvata alcuna credenziale con l'archivio dati, verrà usato il token AAD degli utenti nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni. Per un esempio di come registrare un database Azure SQL come archivio dati, vedere di seguito.
register_dbfs	Inizializzare un nuovo archivio dati DBFS (Databricks File System). L'archivio dati DBFS può essere usato solo per creare DataReference come input e PipelineData come output in DatabricksStep nelle pipeline di Azure Machine Learning. Altre informazioni sono disponibili qui.
register_hdfs	Nota Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Inizializzare un nuovo archivio dati HDFS.
set_as_default	Impostare l'archivio dati predefinito.
unregister	Annulla la registrazione dell'archivio dati. il servizio di archiviazione sottostante non verrà eliminato.

get

Ottenere un archivio dati in base al nome. Equivale a chiamare il costruttore.

static get(workspace, datastore_name)

Parametri

workspace: Workspace

Necessario

Area di lavoro.

datastore_name: str, <xref:optional>

Necessario

Il nome dell'archivio dati, il valore predefinito è Nessuno, che ottiene l'archivio dati predefinito.

Restituisce

Archivio dati corrispondente per tale nome.

Tipo restituito

AzureFileDatastore,

AzureBlobDatastore,

AzureDataLakeDatastore,

AzureDataLakeGen2Datastore,

AzureSqlDatabaseDatastore,

AzurePostgreSqlDatastore,

AzureMySqlDatastore,

DBFSDatastore

get_default

Ottenere l'archivio dati predefinito per l'area di lavoro.

static get_default(workspace)

Parametri

workspace: Workspace

Necessario

Area di lavoro.

Restituisce

Archivio dati predefinito per l'area di lavoro

Tipo restituito

AzureFileDatastore,

AzureBlobDatastore

register_azure_blob_container

Registrare un contenitore BLOB di Azure nell'archivio dati.

Sono supportati l'accesso ai dati basato sulle credenziali (GA) e l'accesso ai dati basato su identità (anteprima), è possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione. Se non vengono salvate credenziali con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parametri

workspace: Workspace

Necessario

Area di lavoro.

datastore_name: str

Necessario

Il nome dell'archivio dati, senza distinzione tra maiuscole e minuscole, può contenere solo caratteri alfanumerici e _.

container_name: str

Necessario

Nome del contenitore BLOB di Azure.

account_name: str

Necessario

nome dell'account di archiviazione.

sas_token: str, <xref:optional>

valore predefinito: None

Un token di firma di accesso condiviso dell'account, il valore predefinito è Nessuno. Per la lettura dei dati, sono necessarie almeno le autorizzazioni list & lettura per contenitori & oggetti e per la scrittura dei dati sono necessarie anche le autorizzazioni Write & Add.

account_key: str, <xref:optional>

valore predefinito: None

Chiavi di accesso dell'account di archiviazione, il valore predefinito è Nessuno.

protocol: str, <xref:optional>

valore predefinito: None

Protocollo da usare per connettersi al contenitore BLOB. Se Nessuno, per impostazione predefinita è https.

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint dell'account di archiviazione. Se Nessuno, per impostazione predefinita viene core.windows.net.

overwrite: bool, <xref:optional>

valore predefinito: False

sovrascrive un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno, il valore predefinito è False

create_if_not_exists: bool, <xref:optional>

valore predefinito: False

creare il contenitore BLOB se non esiste, il valore predefinito è False

skip_validation: bool, <xref:optional>

valore predefinito: False

ignora la convalida delle chiavi di archiviazione, il valore predefinito è False

blob_cache_timeout: int, <xref:optional>

valore predefinito: None

Quando questo BLOB viene montato, impostare il timeout della cache su questo numero di secondi. Se Nessuna, per impostazione predefinita non viene eseguito alcun timeout, ovvero i BLOB verranno memorizzati nella cache per la durata del processo durante la lettura.

grant_workspace_access: bool, <xref:optional>

valore predefinito: False

Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere proprietario o amministratore dell'accesso utente della risorsa di archiviazione per acconsentire esplicitamente. Chiedere all'amministratore di configurarlo se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

subscription_id: str, <xref:optional>

valore predefinito: None

L'ID sottoscrizione dell'account di archiviazione, il valore predefinito è Nessuno.

resource_group: str, <xref:optional>

valore predefinito: None

Il gruppo di risorse dell'account di archiviazione, il valore predefinito è Nessuno.

Restituisce

Archivio dati BLOB.

Tipo restituito

AzureBlobDatastore

Commenti

Se si collega l'archiviazione da un'area diversa dall'area dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.

register_azure_data_lake

Inizializzare un nuovo archivio dati di Azure Data Lake.

L'accesso ai dati basato su credenziali (GA) e identity based (anteprima) è supportato, è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basati sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, verrà usato il token AAD degli utenti nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni.

Per un esempio di come registrare azure Data Lake Gen1 come archivio dati, vedere di seguito.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal

static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene questo archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

store_name: str

Necessario

Nome dell'archivio ADLS.

tenant_id: str, <xref:optional>

valore predefinito: None

ID directory/ID tenant dell'entità servizio usata per accedere ai dati.

client_id: str, <xref:optional>

valore predefinito: None

ID client/ID applicazione dell'entità servizio usata per accedere ai dati.

client_secret: str, <xref:optional>

valore predefinito: None

Segreto client dell'entità servizio usata per accedere ai dati.

resource_url: str, <xref:optional>

valore predefinito: None

L'URL della risorsa, che determina le operazioni che verranno eseguite nell'archivio Data Lake, se Nessuna, per https://datalake.azure.net/ impostazione predefinita, consente di eseguire operazioni del file system.

authority_url: str, <xref:optional>

valore predefinito: None

L'URL dell'autorità usato per autenticare l'utente, per impostazione predefinita https://login.microsoftonline.comè .

subscription_id: str, <xref:optional>

valore predefinito: None

ID della sottoscrizione a cui appartiene l'archivio ADLS.

resource_group: str, <xref:optional>

valore predefinito: None

Il gruppo di risorse a cui appartiene l'archivio ADLS.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False.

grant_workspace_access: bool, <xref:optional>

valore predefinito: False

Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. Per acconsentire esplicitamente, è necessario essere Proprietario o Amministratore accesso utenti dell'archiviazione. Chiedere all'amministratore di configurarlo se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Restituisce

Restituisce l'archivio dati di Azure Data Lake.

Tipo restituito

AzureDataLakeDatastore

Commenti

Se si collega l'archiviazione da un'area diversa dall'area dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.

Nota

Azure Data Lake Datastore supporta il trasferimento dei dati ed esegue processi U-Sql tramite Pipeline di Azure Machine Learning.

È anche possibile usarlo come origine dati per il set di dati di Azure Machine Learning che può essere scaricato o montato in qualsiasi calcolo supportato.

register_azure_data_lake_gen2

Inizializzare un nuovo archivio dati di Azure Data Lake Gen2.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

filesystem: str

Necessario

Nome del file system Data Lake Gen2.

account_name: str

Necessario

nome dell'account di archiviazione.

tenant_id: str, <xref:optional>

valore predefinito: None

ID directory/ID tenant dell'entità servizio.

client_id: str, <xref:optional>

valore predefinito: None

ID client/ID applicazione dell'entità servizio.

client_secret: str, <xref:optional>

valore predefinito: None

Segreto dell'entità servizio.

resource_url: str, <xref:optional>

valore predefinito: None

L'URL della risorsa, che determina le operazioni eseguite nell'archivio data lake, le impostazioni predefinite https://storage.azure.com/ consentono di eseguire operazioni di file system.

authority_url: str, <xref:optional>

valore predefinito: None

URL dell'autorità usato per autenticare l'utente, impostazione predefinita su https://login.microsoftonline.com.

protocol: str, <xref:optional>

valore predefinito: None

Protocollo da usare per connettersi al contenitore BLOB. Se None, l'impostazione predefinita è https.

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint dell'account di archiviazione. Se None, il valore predefinito è core.windows.net.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

subscription_id: str, <xref:optional>

valore predefinito: None

ID della sottoscrizione a cui appartiene l'archivio ADLS.

resource_group: str, <xref:optional>

valore predefinito: None

Il gruppo di risorse a cui appartiene l'archivio ADLS.

grant_workspace_access: bool, <xref:optional>

valore predefinito: False

Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio.In questo modo i dati da Machine Learning Studio usano l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere proprietario o amministratore dell'accesso utente dell'archiviazione per il consenso esplicito. Chiedere all'amministratore di configurarlo se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Restituisce

Restituisce l'archivio dati di Azure Data Lake Gen2.

Tipo restituito

AzureDataLakeGen2Datastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.

Registrare una condivisione file di Azure nell'archivio dati.

È possibile scegliere di usare token di firma di accesso condiviso o chiave dell'account di archiviazione

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Il nome dell'archivio dati, senza distinzione tra maiuscole e minuscole, può contenere solo caratteri alfanumerici e _.

file_share_name: str

Necessario

Nome del contenitore di file di Azure.

account_name: str

Necessario

nome dell'account di archiviazione.

sas_token: str, <xref:optional>

valore predefinito: None

Token di firma di accesso condiviso dell'account, impostazione predefinita none. Per la lettura dei dati, è necessario un minimo di autorizzazioni di lettura & elenco per contenitori & oggetti e per la scrittura dei dati sono necessarie anche le autorizzazioni Write & Add.

account_key: str, <xref:optional>

valore predefinito: None

Chiavi di accesso dell'account di archiviazione, impostazione predefinita none.

protocol: str, <xref:optional>

valore predefinito: None

Protocollo da usare per connettersi alla condivisione file. Se None, l'impostazione predefinita è https.

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint della condivisione file. Se None, il valore predefinito è core.windows.net.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

create_if_not_exists: bool, <xref:optional>

valore predefinito: False

Se creare la condivisione file se non esiste. Il valore predefinito è False.

skip_validation: bool, <xref:optional>

valore predefinito: False

Se ignorare la convalida delle chiavi di archiviazione. Il valore predefinito è False.

Restituisce

Archivio dati file.

Tipo restituito

AzureFileDatastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.

register_azure_my_sql

Inizializzare un nuovo archivio dati di Azure MySQL.

L'archivio dati MySQL può essere usato solo per creare DataReference come input e output in DataTransferStep nelle pipeline di Azure Machine Learning. Altre informazioni sono disponibili qui.

Per un esempio di come registrare un database Azure MySQL come archivio dati, vedere di seguito.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

server_name: str

Necessario

Nome del server MySQL.

database_name: str

Necessario

Nome del database MySQL.

user_id: str

Necessario

ID utente del server MySQL.

user_password: str

Necessario

Password utente del server MySQL.

port_number: str

valore predefinito: None

Numero di porta del server MySQL.

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint del server MySQL. Se None, il valore predefinito è mysql.database.azure.com.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

Restituisce

Restituisce l'archivio dati del database MySQL.

Tipo restituito

AzureMySqlDatastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inizializzare un nuovo archivio dati di Azure PostgreSQL.

Per un esempio di come registrare un database di Azure PostgreSQL come archivio dati, vedere di seguito.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

server_name: str

Necessario

Nome del server PostgreSQL.

database_name: str

Necessario

Nome del database PostgreSQL.

user_id: str

Necessario

ID utente del server PostgreSQL.

user_password: str

Necessario

Password utente del server PostgreSQL.

port_number: str

valore predefinito: None

Numero di porta del server PostgreSQL

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint del server PostgreSQL. Se None, il valore predefinito è postgres.database.azure.com.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

enforce_ssl: bool

valore predefinito: True

Indica il requisito SSL del server PostgreSQL. Impostazione predefinita su True.

Restituisce

Restituisce l'archivio dati del database PostgreSQL.

Tipo restituito

AzurePostgreSqlDatastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inizializzare un nuovo archivio dati del database Azure SQL.

L'accesso ai dati basato sulle credenziali (GA) e basato su identità (anteprima) è supportato, è possibile scegliere di usare Entità servizio o nome utente + password. Se non viene salvata alcuna credenziale con l'archivio dati, verrà usato il token AAD degli utenti nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Fare clic qui per altre informazioni.

Per un esempio di come registrare un database Azure SQL come archivio dati, vedere di seguito.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

server_name: str

Necessario

Nome del server SQL. Per il nome di dominio completo come "sample.database.windows.net", il valore server_name deve essere "sample" e il valore dell'endpoint deve essere "database.windows.net".

database_name: str

Necessario

Nome del database SQL.

tenant_id: str

valore predefinito: None

ID directory/ID tenant dell'entità servizio.

client_id: str

valore predefinito: None

ID client/ID applicazione dell'entità servizio.

client_secret: str

valore predefinito: None

Segreto dell'entità servizio.

resource_url: str, <xref:optional>

valore predefinito: None

L'URL della risorsa, che determina le operazioni che verranno eseguite nell'archivio database SQL, se None, viene predefinito su https://database.windows.net/.

authority_url: str, <xref:optional>

valore predefinito: None

URL dell'autorità usato per autenticare l'utente, impostazione predefinita su https://login.microsoftonline.com.

endpoint: str, <xref:optional>

valore predefinito: None

Endpoint del server SQL. Se Nessuna, l'impostazione predefinita è database.windows.net.

overwrite: bool, <xref:optional>

valore predefinito: False

Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

username: str

valore predefinito: None

Nome utente dell'utente del database per accedere al database.

password: str

valore predefinito: None

Password dell'utente del database per accedere al database.

skip_validation: bool, <xref:optional>

Necessario

Se ignorare la convalida della connessione al database SQL. Il valore predefinito è False.

subscription_id: str, <xref:optional>

valore predefinito: None

ID della sottoscrizione a cui appartiene l'archivio ADLS.

resource_group: str, <xref:optional>

valore predefinito: None

Il gruppo di risorse a cui appartiene l'archivio ADLS.

grant_workspace_access: bool, <xref:optional>

valore predefinito: False

Restituisce

Restituisce l'archivio dati del database SQL.

Tipo restituito

AzureSqlDatabaseDatastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inizializzare un nuovo archivio dati DBFS (Databricks File System).

L'archivio dati DBFS può essere usato solo per creare DataReference come input e PipelineData come output in DatabricksStep nelle pipeline di Azure Machine Learning. Altre informazioni sono disponibili qui.

static register_dbfs(workspace, datastore_name)

Parametri

workspace: Workspace

Necessario

L'area di lavoro a cui appartiene l'archivio dati.

datastore_name: str

Necessario

Nome dell'archivio dati.

Restituisce

Restituisce l'archivio dati DBFS.

Tipo restituito

DBFSDatastore

Commenti

Se si collega l'archiviazione da un'area diversa rispetto all'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.

register_hdfs

Nota

Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Inizializzare un nuovo archivio dati HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parametri

workspace: Workspace

Necessario

l'area di lavoro a cui appartiene l'archivio dati

datastore_name: str

Necessario

nome dell'archivio dati

protocol: str oppure <xref:_restclient.models.enum>

Necessario

Protocollo da usare quando si comunica con il cluster HDFS. http o https. I valori possibili includono: 'http', 'https'

namenode_address: str

Necessario

Indirizzo IP o nome host DNS del nome HDFS. Facoltativamente include una porta.

hdfs_server_certificate: str, <xref:optional>

Necessario

Percorso del certificato di firma TLS del nome HDFS, se si usa TLS con un certificato autofirmato.

kerberos_realm: str

Necessario

Area di autenticazione Kerberos.

kerberos_kdc_address: str

Necessario

Indirizzo IP o nome host DNS del KDC Kerberos.

kerberos_principal: str

Necessario

Entità Kerberos da usare per l'autenticazione e l'autorizzazione.

kerberos_keytab: str, <xref:optional>

Necessario

Percorso del file keytab contenente le chiavi corrispondenti all'entità Kerberos. Specificare questa opzione o una password.

kerberos_password: str, <xref:optional>

Necessario

Password corrispondente all'entità Kerberos. Specificare questa opzione o il percorso di un file keytab.

overwrite: bool, <xref:optional>

Necessario

sovrascrive un archivio dati esistente. Se l'archivio dati non esiste, ne creerà uno. Il valore predefinito è False.

set_as_default

Impostare l'archivio dati predefinito.

set_as_default()

Parametri

datastore_name: str

Necessario

Nome dell'archivio dati.

unregister

Annulla la registrazione dell'archivio dati. il servizio di archiviazione sottostante non verrà eliminato.

unregister()

Datastore Classe

Costruttore

Parametri

Commenti

Metodi

get

Parametri

Restituisce

Tipo restituito

get_default

Parametri

Restituisce

Tipo restituito

register_azure_blob_container

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_data_lake

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_data_lake_gen2

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_file_share

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_my_sql

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_postgre_sql

Parametri

Restituisce

Tipo restituito

Commenti

register_azure_sql_database

Parametri

Restituisce

Tipo restituito

Commenti

register_dbfs

Parametri

Restituisce

Tipo restituito

Commenti

register_hdfs

Parametri

set_as_default

Parametri

unregister

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive