Datastore Klass

Representerar en lagringsabstraktion över ett Azure Machine Learning-lagringskonto.

Datalager är kopplade till arbetsytor och används för att lagra anslutningsinformation till Azure Storage-tjänster så att du kan referera till dem efter namn och inte behöver komma ihåg anslutningsinformationen och hemligheten som används för att ansluta till lagringstjänsterna.

Exempel på Azure Storage-tjänster som stöds och som kan registreras som datalager är:

  • Azure Blob-container

  • Azure-filresurs

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Azure SQL Database

  • Azure Database for PostgreSQL

  • Databricks-filsystem

  • Azure Database for MySQL

Använd den här klassen för att utföra hanteringsåtgärder, inklusive registrering, lista, hämta och ta bort datalager. Datalager för varje tjänst skapas med metoderna i den register* här klassen. När du använder ett datalager för att komma åt data måste du ha behörighet att komma åt dessa data, vilket beror på de autentiseringsuppgifter som registrerats med datalagringen.

Mer information om datalager och hur de kan användas i maskininlärning finns i följande artiklar:

Hämta ett datalager efter namn. Det här anropet skickar en begäran till datalagertjänsten.

Arv
builtins.object
Datastore

Konstruktor

Datastore(workspace, name=None)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan.

name
str, <xref:optional>
standardvärde: None

Namnet på datalagringen är som standard Ingen, vilket hämtar standarddatalagringen.

Kommentarer

Om du vill interagera med data i dina datalager för maskininlärningsuppgifter, till exempel träning, skapar du en Azure Machine Learning-datauppsättning. Datauppsättningar tillhandahåller funktioner som läser in tabelldata i en Pandas- eller Spark-dataram. Datauppsättningar ger också möjlighet att ladda ned eller montera filer i valfritt format från Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database och Azure Database for PostgreSQL. Läs mer om hur du tränar med datauppsättningar.

I följande exempel visas hur du skapar ett datalager som är anslutet till Azure Blob Container.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

Fullständigt exempel är tillgängligt från https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Metoder

get

Hämta ett datalager efter namn. Det här är samma sak som att anropa konstruktorn.

get_default

Hämta standarddatalagringen för arbetsytan.

register_azure_blob_container

Registrera en Azure Blob-container i datalagringen.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan välja att använda SAS-token eller lagringskontonyckel. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook-filen eller det lokala Python-programmet om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

register_azure_data_lake

Initiera ett nytt Azure Data Lake Datastore.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan registrera ett datalager med tjänstens huvudnamn för åtkomst till autentiseringsuppgifter. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook- eller lokalt Python-program om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure Data Lake Gen1 som ett datalager.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Initiera ett nytt Azure Data Lake Gen2-datalager.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan registrera ett datalager med tjänstens huvudnamn för åtkomst till autentiseringsuppgifter. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook- eller lokalt Python-program om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

register_azure_file_share

Registrera en Azure-filresurs i dataarkivet.

Du kan välja att använda SAS-token eller lagringskontonyckel

register_azure_my_sql

Initiera ett nytt Azure MySQL-datalager.

MySQL-datalager kan bara användas för att skapa DataReference som indata och utdata till DataTransferStep i Azure Machine Learning-pipelines. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure MySQL-databas som ett datalager.

register_azure_postgre_sql

Initiera ett nytt Azure PostgreSQL-datalager.

Nedan finns ett exempel på hur du registrerar en Azure PostgreSQL-databas som ett datalager.

register_azure_sql_database

Initiera ett nytt Azure SQL databasdatalager.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan välja att använda tjänstens huvudnamn eller användarnamn + lösenord. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook-filen eller det lokala Python-programmet om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure SQL databas som ett datalager.

register_dbfs

Initiera ett nytt datalager för Databricks-filsystem (DBFS).

DBFS-datalagringen kan bara användas för att skapa DataReference som indata och PipelineData som utdata till DatabricksStep i Azure Machine Learning-pipelines. Mer information finns här..

register_hdfs

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Initiera ett nytt HDFS-datalager.

set_as_default

Ange standarddatalager.

unregister

Avregistrerar datalagringen. den underliggande lagringstjänsten tas inte bort.

get

Hämta ett datalager efter namn. Det här är samma sak som att anropa konstruktorn.

static get(workspace, datastore_name)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan.

datastore_name
str, <xref:optional>
Obligatorisk

Namnet på datalagringen är som standard Ingen, vilket hämtar standarddatalagringen.

Returer

Motsvarande datalager för det namnet.

Returtyp

get_default

Hämta standarddatalagringen för arbetsytan.

static get_default(workspace)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan.

Returer

Standarddatalager för arbetsytan

Returtyp

register_azure_blob_container

Registrera en Azure Blob-container i datalagringen.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan välja att använda SAS-token eller lagringskontonyckel. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook-filen eller det lokala Python-programmet om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan.

datastore_name
str
Obligatorisk

Namnet på datalagringen, skiftlägesokänsligt, får bara innehålla alfanumeriska tecken och _.

container_name
str
Obligatorisk

Namnet på Azure Blob-containern.

account_name
str
Obligatorisk

Namnet på lagringskontot.

sas_token
str, <xref:optional>
standardvärde: None

En SAS-token för kontot är som standard Ingen. För dataläsning kräver vi minst behörigheten Lista & Läs för containrar &-objekt och för dataskrivning kräver vi dessutom skrivbehörigheter & Lägg till.

account_key
str, <xref:optional>
standardvärde: None

Åtkomstnycklar för ditt lagringskonto är som standard Ingen.

protocol
str, <xref:optional>
standardvärde: None

Protokoll som ska användas för att ansluta till blobcontainern. Om inget är standardvärdet https.

endpoint
str, <xref:optional>
standardvärde: None

Slutpunkten för lagringskontot. Om inget är standardvärdet core.windows.net.

overwrite
bool, <xref:optional>
standardvärde: False

skriver över ett befintligt datalager. Om datalagringen inte finns skapas ett, som standard falskt

create_if_not_exists
bool, <xref:optional>
standardvärde: False

skapa blobcontainern om den inte finns, standardvärdet är False

skip_validation
bool, <xref:optional>
standardvärde: False

hoppar över valideringen av lagringsnycklar, standardvärdet är Falskt

blob_cache_timeout
int, <xref:optional>
standardvärde: None

När den här bloben är monterad anger du tidsgränsen för cacheminnet till så här många sekunder. Om det är Ingen cachelagras som standard ingen tidsgräns (dvs. blobar cachelagras under jobbets varaktighet vid läsning).

grant_workspace_access
bool, <xref:optional>
standardvärde: False

Standardvärdet är False. Ställ in den på True för att få åtkomst till data bakom virtuella nätverk från Machine Learning Studio. Detta gör att dataåtkomst från Machine Learning Studio använder arbetsytehanterad identitet för autentisering och lägger till arbetsytans hanterade identitet som läsare för lagringen. Du måste vara ägare eller administratör för användaråtkomst för lagringen för att kunna anmäla dig. Be administratören att konfigurera det åt dig om du inte har den behörighet som krävs. Läs merhttps://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

subscription_id
str, <xref:optional>
standardvärde: None

Lagringskontots prenumerations-ID är som standard Inget.

resource_group
str, <xref:optional>
standardvärde: None

Lagringskontots resursgrupp är som standard Ingen.

Returer

Blobdatalagringen.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstider och ytterligare kostnader för nätverksanvändning.

register_azure_data_lake

Initiera ett nytt Azure Data Lake Datastore.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan registrera ett datalager med tjänstens huvudnamn för åtkomst till autentiseringsuppgifter. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook- eller lokalt Python-program om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure Data Lake Gen1 som ett datalager.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Namnet på datalagringen.

store_name
str
Obligatorisk

Namnet på ADLS-lagringsplatsen.

tenant_id
str, <xref:optional>
standardvärde: None

Katalog-ID/klientorganisations-ID för tjänstens huvudnamn som används för att komma åt data.

client_id
str, <xref:optional>
standardvärde: None

Klient-ID/program-ID för tjänstens huvudnamn som används för att komma åt data.

client_secret
str, <xref:optional>
standardvärde: None

Klienthemligheten för tjänstens huvudnamn som används för att komma åt data.

resource_url
str, <xref:optional>
standardvärde: None

Resurs-URL:en, som bestämmer vilka åtgärder som ska utföras i Data Lake Store, om Ingen, gör att https://datalake.azure.net/ vi kan utföra filsystemsåtgärder som standard.

authority_url
str, <xref:optional>
standardvärde: None

Utfärdar-URL:en som används för att autentisera användaren är som standard https://login.microsoftonline.com.

subscription_id
str, <xref:optional>
standardvärde: None

ID:t för prenumerationen som ADLS-arkivet tillhör.

resource_group
str, <xref:optional>
standardvärde: None

Den resursgrupp som ADLS-arkivet tillhör.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är False.

grant_workspace_access
bool, <xref:optional>
standardvärde: False

Standardvärdet är False. Ställ in den på True för att få åtkomst till data bakom virtuella nätverk från Machine Learning Studio. Detta gör att dataåtkomst från Machine Learning Studio använder arbetsytehanterad identitet för autentisering och lägger till arbetsytans hanterade identitet som läsare för lagringen. Du måste vara ägare eller administratör för användaråtkomst för lagringen för att kunna anmäla dig. Be administratören att konfigurera det åt dig om du inte har den behörighet som krävs. Läs merhttps://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Returer

Returnerar Azure Data Lake Datastore.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstider och ytterligare kostnader för nätverksanvändning.

Anteckning

Azure Data Lake Datastore stöder dataöverföring och körning av U-Sql-jobb med Hjälp av Azure Machine Learning-pipelines.

Du kan också använda den som en datakälla för Azure Machine Learning Dataset som kan laddas ned eller monteras på alla beräkningar som stöds.

register_azure_data_lake_gen2

Initiera ett nytt Azure Data Lake Gen2-datalager.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan registrera ett datalager med tjänstens huvudnamn för åtkomst till autentiseringsuppgifter. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook- eller lokalt Python-program om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Datalagernamnet.

filesystem
str
Obligatorisk

Namnet på Data Lake Gen2-filsystemet.

account_name
str
Obligatorisk

Namnet på lagringskontot.

tenant_id
str, <xref:optional>
standardvärde: None

Katalog-ID/klientorganisations-ID för tjänstens huvudnamn.

client_id
str, <xref:optional>
standardvärde: None

Klient-ID/program-ID för tjänstens huvudnamn.

client_secret
str, <xref:optional>
standardvärde: None

Hemligheten med tjänstens huvudnamn.

resource_url
str, <xref:optional>
standardvärde: None

Resurs-URL:en, som avgör vilka åtgärder som ska utföras i datasjölagret, gör att https://storage.azure.com/ vi kan utföra filsystemåtgärder som standard.

authority_url
str, <xref:optional>
standardvärde: None

Den utfärdar-URL som används för att autentisera användaren, standardvärdet är https://login.microsoftonline.com.

protocol
str, <xref:optional>
standardvärde: None

Protokoll som ska användas för att ansluta till blobcontainern. Om ingen är standard https.

endpoint
str, <xref:optional>
standardvärde: None

Slutpunkten för lagringskontot. Om ingen är standard core.windows.net.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är Falskt.

subscription_id
str, <xref:optional>
standardvärde: None

ID:t för prenumerationen som ADLS-arkivet tillhör.

resource_group
str, <xref:optional>
standardvärde: None

Resursgruppen som ADLS-arkivet tillhör.

grant_workspace_access
bool, <xref:optional>
standardvärde: False

Standardvärdet är Falskt. Ställ in den på Sant för att få åtkomst till data bakom virtuella nätverk från Machine Learning Studio. Detta gör att dataåtkomst från Machine Learning Studio använder arbetsytans hanterade identitet för autentisering och lägger till arbetsytans hanterade identitet som läsare av lagringen. Du måste vara ägare eller administratör för användaråtkomst för lagringen för att kunna anmäla dig. Be administratören att konfigurera den åt dig om du inte har den behörighet som krävs. Läs mer "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"

Returer

Returnerar Azure Data Lake Gen2-dataarkivet.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstid och ytterligare kostnader för nätverksanvändning.

register_azure_file_share

Registrera en Azure-filresurs i dataarkivet.

Du kan välja att använda SAS-token eller lagringskontonyckel

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Namnet på dataarkivet, skiftlägesokänsligt, får bara innehålla alfanumeriska tecken och _.

file_share_name
str
Obligatorisk

Namnet på azure-filcontainern.

account_name
str
Obligatorisk

Namnet på lagringskontot.

sas_token
str, <xref:optional>
standardvärde: None

En SAS-token för kontot, standardvärdet Ingen. För dataläsning kräver vi minst List-& Läsbehörigheter för containrar &-objekt och för dataskrivning kräver vi dessutom Skriv & Lägg till behörigheter.

account_key
str, <xref:optional>
standardvärde: None

Åtkomstnycklar för ditt lagringskonto, standardvärdet Ingen.

protocol
str, <xref:optional>
standardvärde: None

Det protokoll som ska användas för att ansluta till filresursen. Om ingen är standard https.

endpoint
str, <xref:optional>
standardvärde: None

Filresursens slutpunkt. Om ingen är standard core.windows.net.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är Falskt.

create_if_not_exists
bool, <xref:optional>
standardvärde: False

Om filresursen ska skapas om den inte finns. Standardvärdet är Falskt.

skip_validation
bool, <xref:optional>
standardvärde: False

Om du vill hoppa över valideringen av lagringsnycklar. Standardvärdet är Falskt.

Returer

Fildatalagringen.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstid och ytterligare kostnader för nätverksanvändning.

register_azure_my_sql

Initiera ett nytt Azure MySQL-datalager.

MySQL-datalager kan bara användas för att skapa DataReference som indata och utdata till DataTransferStep i Azure Machine Learning-pipelines. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure MySQL-databas som ett datalager.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Datalagernamnet.

server_name
str
Obligatorisk

MySQL-servernamnet.

database_name
str
Obligatorisk

Namnet på MySQL-databasen.

user_id
str
Obligatorisk

Användar-ID för MySQL-servern.

user_password
str
Obligatorisk

Användarlösenordet för MySQL-servern.

port_number
str
standardvärde: None

Portnumret för MySQL-servern.

endpoint
str, <xref:optional>
standardvärde: None

Slutpunkten för MySQL-servern. Om ingen är standard mysql.database.azure.com.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är Falskt.

Returer

Returnerar MySQL-databasens datalager.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstid och ytterligare kostnader för nätverksanvändning.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Initiera ett nytt Azure PostgreSQL-datalager.

Nedan finns ett exempel på hur du registrerar en Azure PostgreSQL-databas som ett datalager.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Datalagernamnet.

server_name
str
Obligatorisk

PostgreSQL-servernamnet.

database_name
str
Obligatorisk

PostgreSQL-databasnamnet.

user_id
str
Obligatorisk

Användar-ID för PostgreSQL-servern.

user_password
str
Obligatorisk

Användarlösenordet för PostgreSQL-servern.

port_number
str
standardvärde: None

PostgreSQL-serverns portnummer

endpoint
str, <xref:optional>
standardvärde: None

Slutpunkten för PostgreSQL-servern. Om Ingen är standard postgres.database.azure.com.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är Falskt.

enforce_ssl
bool
standardvärde: True

Anger SSL-krav för PostgreSQL-server. Standardvärdet är True.

Returer

Returnerar PostgreSQL-databasens datalager.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstid och ytterligare kostnader för nätverksanvändning.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Initiera ett nytt Azure SQL databasdatalager.

Dataåtkomst baserad på autentiseringsuppgifter (GA) och identitetsbaserad (förhandsversion) stöds. Du kan välja att använda tjänstens huvudnamn eller användarnamn + lösenord. Om inga autentiseringsuppgifter sparas med datalagringen används användarnas AAD-token i notebook-filen eller det lokala Python-programmet om den anropar någon av dessa funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering med dataåtkomst. Mer information finns här.

Nedan finns ett exempel på hur du registrerar en Azure SQL databas som ett datalager.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Datalagernamnet.

server_name
str
Obligatorisk

SQL-servernamnet. För fullständigt kvalificerade domännamn som "sample.database.windows.net" ska server_name-värdet vara "sample" och slutpunktsvärdet ska vara "database.windows.net".

database_name
str
Obligatorisk

SQL-databasnamnet.

tenant_id
str
standardvärde: None

Katalog-ID/klientorganisations-ID för tjänstens huvudnamn.

client_id
str
standardvärde: None

Klient-ID/program-ID för tjänstens huvudnamn.

client_secret
str
standardvärde: None

Hemligheten med tjänstens huvudnamn.

resource_url
str, <xref:optional>
standardvärde: None

Resurs-URL:en, som avgör vilka åtgärder som ska utföras i SQL-databasarkivet, om Ingen används som standard https://database.windows.net/.

authority_url
str, <xref:optional>
standardvärde: None

Utfärdar-URL:en som används för att autentisera användaren är som standard https://login.microsoftonline.com.

endpoint
str, <xref:optional>
standardvärde: None

Slutpunkten för SQL-servern. Om inget är standardvärdet database.windows.net.

overwrite
bool, <xref:optional>
standardvärde: False

Om du vill skriva över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är False.

username
str
standardvärde: None

Användarnamnet för databasanvändaren för att komma åt databasen.

password
str
standardvärde: None

Databasanvändarens lösenord för att komma åt databasen.

skip_validation
bool, <xref:optional>
Obligatorisk

Om du vill hoppa över verifieringen av att ansluta till SQL-databasen. Standardvärdet är False.

subscription_id
str, <xref:optional>
standardvärde: None

ID:t för prenumerationen som ADLS-arkivet tillhör.

resource_group
str, <xref:optional>
standardvärde: None

Den resursgrupp som ADLS-arkivet tillhör.

grant_workspace_access
bool, <xref:optional>
standardvärde: False

Standardvärdet är False. Ställ in den på True för att få åtkomst till data bakom virtuella nätverk från Machine Learning Studio. Detta gör att dataåtkomst från Machine Learning Studio använder arbetsytehanterad identitet för autentisering och lägger till arbetsytans hanterade identitet som läsare för lagringen. Du måste vara ägare eller administratör för användaråtkomst för lagringen för att kunna anmäla dig. Be administratören att konfigurera det åt dig om du inte har den behörighet som krävs. Läs merhttps://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Returer

Returnerar SQL-databasens datalager.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstider och ytterligare kostnader för nätverksanvändning.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Initiera ett nytt datalager för Databricks-filsystem (DBFS).

DBFS-datalagringen kan bara användas för att skapa DataReference som indata och PipelineData som utdata till DatabricksStep i Azure Machine Learning-pipelines. Mer information finns här..

static register_dbfs(workspace, datastore_name)

Parametrar

workspace
Workspace
Obligatorisk

Arbetsytan som det här dataarkivet tillhör.

datastore_name
str
Obligatorisk

Namnet på datalagringen.

Returer

Returnerar DBFS-datalagringen.

Returtyp

Kommentarer

Om du kopplar lagring från en annan region än arbetsyteregionen kan det resultera i högre svarstider och ytterligare kostnader för nätverksanvändning.

register_hdfs

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Initiera ett nytt HDFS-datalager.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parametrar

workspace
Workspace
Obligatorisk

arbetsytan som det här dataarkivet tillhör

datastore_name
str
Obligatorisk

datalagernamnet

protocol
str eller <xref:_restclient.models.enum>
Obligatorisk

Det protokoll som ska användas vid kommunikation med HDFS-klustret. http eller https. Möjliga värden är: "http", "https"

namenode_address
str
Obligatorisk

IP-adressen eller DNS-värdnamnet för HDFS-namnnoden. Du kan också inkludera en port.

hdfs_server_certificate
str, <xref:optional>
Obligatorisk

Sökvägen till TLS-signeringscertifikatet för HDFS-namnnoden om du använder TLS med ett självsignerat certifikat.

kerberos_realm
str
Obligatorisk

Kerberos-sfären.

kerberos_kdc_address
str
Obligatorisk

IP-adressen eller DNS-värdnamnet för Kerberos KDC.

kerberos_principal
str
Obligatorisk

Kerberos-huvudkontot som ska användas för autentisering och auktorisering.

kerberos_keytab
str, <xref:optional>
Obligatorisk

Sökvägen till nyckelfliksfilen som innehåller de nycklar som motsvarar Kerberos-huvudkontot. Ange antingen detta eller ett lösenord.

kerberos_password
str, <xref:optional>
Obligatorisk

Lösenordet som motsvarar Kerberos-huvudkontot. Ange antingen detta eller sökvägen till en nyckelfliksfil.

overwrite
bool, <xref:optional>
Obligatorisk

skriver över ett befintligt datalager. Om datalagringen inte finns skapas ett. Standardvärdet är False.

set_as_default

Ange standarddatalager.

set_as_default()

Parametrar

datastore_name
str
Obligatorisk

Namnet på datalagringen.

unregister

Avregistrerar datalagringen. den underliggande lagringstjänsten tas inte bort.

unregister()