Datastore Klas

Vertegenwoordigt een opslagabstractie over een Azure Machine Learning-opslagaccount.

Gegevensarchieven zijn gekoppeld aan werkruimten en worden gebruikt voor het opslaan van verbindingsgegevens met Azure-opslagservices, zodat u deze op naam kunt raadplegen en de verbindingsinformatie en het geheim dat wordt gebruikt om verbinding te maken met de opslagservices, niet hoeft te onthouden.

Voorbeelden van ondersteunde Azure-opslagservices die kunnen worden geregistreerd als gegevensarchieven zijn:

  • Azure Blob Container

  • Azure-bestandsshare

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Azure SQL Database

  • Azure Database for PostgreSQL

  • Databricks-bestandssysteem

  • Azure Database for MySQL

Gebruik deze klasse om beheerbewerkingen uit te voeren, waaronder het registreren, weergeven, ophalen en verwijderen van gegevensarchieven. Gegevensarchieven voor elke service worden gemaakt met de register* methoden van deze klasse. Wanneer u een gegevensarchief gebruikt om toegang te krijgen tot gegevens, moet u gemachtigd zijn om toegang te krijgen tot die gegevens. Dit is afhankelijk van de referenties die zijn geregistreerd bij het gegevensarchief.

Zie de volgende artikelen voor meer informatie over gegevensarchieven en hoe deze kunnen worden gebruikt in machine learning:

Een gegevensarchief ophalen op naam. Met deze aanroep wordt een aanvraag verzonden naar de gegevensopslagservice.

Overname
builtins.object
Datastore

Constructor

Datastore(workspace, name=None)

Parameters

workspace
Workspace
Vereist

De werkruimte.

name
str, <xref:optional>
standaardwaarde: None

De naam van het gegevensarchief wordt standaard ingesteld op Geen, waarmee het standaardgegevensarchief wordt opgehaald.

Opmerkingen

Als u wilt communiceren met gegevens in uw gegevensarchieven voor machine learning-taken, zoals training, maakt u een Azure Machine Learning-gegevensset. Gegevenssets bieden functies waarmee gegevens in tabelvorm worden geladen in een pandas- of Spark-dataframe. Gegevenssets bieden ook de mogelijkheid om bestanden van elke indeling te downloaden of koppelen vanuit Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database en Azure Database for PostgreSQL. Meer informatie over het trainen met gegevenssets.

In het volgende voorbeeld ziet u hoe u een gegevensarchief maakt dat is verbonden met Een Azure Blob-container.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

Het volledige voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Methoden

get

Een gegevensarchief ophalen op naam. Dit is hetzelfde als het aanroepen van de constructor.

get_default

Haal het standaardgegevensarchief voor de werkruimte op.

register_azure_blob_container

Registreer een Azure Blob-container bij het gegevensarchief.

Toegang tot gegevens op basis van referenties (GA) en identiteit (preview) worden ondersteund. U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

register_azure_data_lake

Initialiseer een nieuw Azure Data Lake-gegevensarchief.

Gegevenstoegang op basis van referenties (GA) en op identiteit gebaseerde (preview) wordt ondersteund. U kunt een gegevensarchief registreren bij service-principal voor toegang tot gegevens op basis van referenties. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

Hieronder vindt u een voorbeeld van het registreren van een Azure Data Lake Gen1 als een gegevensarchief.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Initialiseer een nieuw Azure Data Lake Gen2-gegevensarchief.

Gegevenstoegang op basis van referenties (GA) en op identiteit gebaseerde (preview) wordt ondersteund. U kunt een gegevensarchief registreren bij service-principal voor toegang tot gegevens op basis van referenties. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

register_azure_file_share

Registreer een Azure-bestandsshare bij het gegevensarchief.

U kunt ervoor kiezen om een SAS-token of een opslagaccountsleutel te gebruiken

register_azure_my_sql

Initialiseer een nieuw Azure MySQL-gegevensarchief.

MySQL-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en uitvoer naar DataTransferStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.

Hieronder vindt u een voorbeeld van het registreren van een Azure MySQL-database als een gegevensarchief.

register_azure_postgre_sql

Initialiseer een nieuw Azure PostgreSQL-gegevensarchief.

Hieronder vindt u een voorbeeld van het registreren van een Azure PostgreSQL-database als een gegevensarchief.

register_azure_sql_database

Initialiseer een nieuw Azure SQL databasegegevensarchief.

Toegang tot gegevens op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt ervoor kiezen om service-principal of gebruikersnaam + wachtwoord te gebruiken. Als er geen referenties worden opgeslagen in het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als hiermee rechtstreeks een van deze functies wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

Hieronder vindt u een voorbeeld van het registreren van een Azure SQL-database als een gegevensarchief.

register_dbfs

Initialiseer een nieuw DBFS-gegevensarchief (Databricks File System).

Het DBFS-gegevensarchief kan alleen worden gebruikt voor het maken van DataReference als invoer en PipelineData als uitvoer naar DatabricksStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.

register_hdfs

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Initialiseer een nieuw HDFS-gegevensarchief.

set_as_default

Stel het standaardgegevensarchief in.

unregister

De registratie van het gegevensarchief ongedaan maken. de onderliggende opslagservice wordt niet verwijderd.

get

Een gegevensarchief ophalen op naam. Dit is hetzelfde als het aanroepen van de constructor.

static get(workspace, datastore_name)

Parameters

workspace
Workspace
Vereist

De werkruimte.

datastore_name
str, <xref:optional>
Vereist

De naam van het gegevensarchief wordt standaard ingesteld op Geen, waarmee het standaardgegevensarchief wordt opgehaald.

Retouren

Het bijbehorende gegevensarchief voor die naam.

Retourtype

get_default

Haal het standaardgegevensarchief voor de werkruimte op.

static get_default(workspace)

Parameters

workspace
Workspace
Vereist

De werkruimte.

Retouren

Het standaardgegevensarchief voor de werkruimte

Retourtype

register_azure_blob_container

Registreer een Azure Blob-container bij het gegevensarchief.

Toegang tot gegevens op basis van referenties (GA) en identiteit (preview) worden ondersteund. U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parameters

workspace
Workspace
Vereist

De werkruimte.

datastore_name
str
Vereist

De naam van het gegevensarchief, niet hoofdlettergevoelig, mag alleen alfanumerieke tekens en _bevatten.

container_name
str
Vereist

De naam van de Azure Blob-container.

account_name
str
Vereist

De naam van het opslagaccount.

sas_token
str, <xref:optional>
standaardwaarde: None

Een SAS-token voor een account, standaard ingesteld op Geen. Voor het lezen van gegevens hebben we een minimum van lijst- & leesmachtigingen nodig voor Containers &-objecten en voor het schrijven van gegevens hebben we bovendien schrijfmachtigingen & Toevoegen nodig.

account_key
str, <xref:optional>
standaardwaarde: None

Toegangssleutels van uw opslagaccount zijn standaard ingesteld op Geen.

protocol
str, <xref:optional>
standaardwaarde: None

Protocol dat moet worden gebruikt om verbinding te maken met de blobcontainer. Indien Geen, wordt standaard ingesteld op https.

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van het opslagaccount. Indien Geen, wordt standaard ingesteld op core.windows.net.

overwrite
bool, <xref:optional>
standaardwaarde: False

Hiermee wordt een bestaand gegevensarchief overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardinstelling is Onwaar

create_if_not_exists
bool, <xref:optional>
standaardwaarde: False

de blobcontainer maken als deze niet bestaat, wordt standaard ingesteld op False

skip_validation
bool, <xref:optional>
standaardwaarde: False

slaat de validatie van opslagsleutels over. De standaardinstelling is False

blob_cache_timeout
int, <xref:optional>
standaardwaarde: None

Wanneer deze blob is gekoppeld, stelt u de time-out van de cache in op dit aantal seconden. Indien Geen, wordt standaard ingesteld op geen time-out (dat wil zeggen dat blobs worden opgeslagen in de cache voor de duur van de taak wanneer deze wordt gelezen).

grant_workspace_access
bool, <xref:optional>
standaardwaarde: False

Standaard ingesteld op False. Stel deze in op True voor toegang tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt voor gegevenstoegang vanuit Machine Learning Studio gebruikgemaakt van een door de werkruimte beheerde identiteit voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als Lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te kunnen aanmelden. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtiging beschikt. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkMeer informatie

subscription_id
str, <xref:optional>
standaardwaarde: None

De abonnements-id van het opslagaccount is standaard ingesteld op Geen.

resource_group
str, <xref:optional>
standaardwaarde: None

De resourcegroep van het opslagaccount is standaard ingesteld op Geen.

Retouren

Het blobgegevensarchief.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.

register_azure_data_lake

Initialiseer een nieuw Azure Data Lake-gegevensarchief.

Gegevenstoegang op basis van referenties (GA) en op identiteit gebaseerde (preview) wordt ondersteund. U kunt een gegevensarchief registreren bij service-principal voor toegang tot gegevens op basis van referenties. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

Hieronder vindt u een voorbeeld van het registreren van een Azure Data Lake Gen1 als een gegevensarchief.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

store_name
str
Vereist

De naam van het ADLS-archief.

tenant_id
str, <xref:optional>
standaardwaarde: None

De directory-id/tenant-id van de service-principal die wordt gebruikt voor toegang tot gegevens.

client_id
str, <xref:optional>
standaardwaarde: None

De client-id/toepassings-id van de service-principal die wordt gebruikt voor toegang tot gegevens.

client_secret
str, <xref:optional>
standaardwaarde: None

Het clientgeheim van de service-principal die wordt gebruikt voor toegang tot gegevens.

resource_url
str, <xref:optional>
standaardwaarde: None

De resource-URL, die bepaalt welke bewerkingen worden uitgevoerd in de Data Lake-opslag, indien geen, is standaard ingesteld op https://datalake.azure.net/ waarmee bestandssysteembewerkingen kunnen worden uitgevoerd.

authority_url
str, <xref:optional>
standaardwaarde: None

De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, is standaard ingesteld op https://login.microsoftonline.com.

subscription_id
str, <xref:optional>
standaardwaarde: None

De id van het abonnement waartoe het ADLS-archief behoort.

resource_group
str, <xref:optional>
standaardwaarde: None

De resourcegroep waartoe het ADLS-archief behoort.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

grant_workspace_access
bool, <xref:optional>
standaardwaarde: False

Standaard ingesteld op False. Stel deze in op True voor toegang tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt voor gegevenstoegang vanuit Machine Learning Studio gebruikgemaakt van een door de werkruimte beheerde identiteit voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als Lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te kunnen aanmelden. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtiging beschikt. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkMeer informatie

Retouren

Retourneert de Azure Data Lake DataStore.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.

Notitie

Azure Data Lake Datastore ondersteunt gegevensoverdracht en het uitvoeren van U-Sql-taken met behulp van Azure Machine Learning-pijplijnen.

U kunt het ook gebruiken als een gegevensbron voor Azure Machine Learning-gegevensset die kan worden gedownload of gekoppeld aan elke ondersteunde berekening.

register_azure_data_lake_gen2

Initialiseer een nieuw Azure Data Lake Gen2-gegevensarchief.

Gegevenstoegang op basis van referenties (GA) en op identiteit gebaseerde (preview) wordt ondersteund. U kunt een gegevensarchief registreren bij service-principal voor toegang tot gegevens op basis van referenties. Als er geen referenties worden opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of het lokale Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

filesystem
str
Vereist

De naam van het Data Lake Gen2-bestandssysteem.

account_name
str
Vereist

De naam van het opslagaccount.

tenant_id
str, <xref:optional>
standaardwaarde: None

De map-id/tenant-id van de service-principal.

client_id
str, <xref:optional>
standaardwaarde: None

De client-id/toepassings-id van de service-principal.

client_secret
str, <xref:optional>
standaardwaarde: None

Het geheim van de service-principal.

resource_url
str, <xref:optional>
standaardwaarde: None

De resource-URL, die bepaalt welke bewerkingen worden uitgevoerd in de Data Lake Store, is standaard ingesteld op https://storage.azure.com/ waarmee we bestandssysteembewerkingen kunnen uitvoeren.

authority_url
str, <xref:optional>
standaardwaarde: None

De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, is standaard ingesteld op https://login.microsoftonline.com.

protocol
str, <xref:optional>
standaardwaarde: None

Protocol dat moet worden gebruikt om verbinding te maken met de blobcontainer. Indien Geen, wordt standaard ingesteld op https.

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van het opslagaccount. Indien Geen, wordt standaard ingesteld op core.windows.net.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

subscription_id
str, <xref:optional>
standaardwaarde: None

De id van het abonnement waartoe het ADLS-archief behoort.

resource_group
str, <xref:optional>
standaardwaarde: None

De resourcegroep waartoe het ADLS-archief behoort.

grant_workspace_access
bool, <xref:optional>
standaardwaarde: False

Standaard ingesteld op False. Stel deze in op True voor toegang tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt voor gegevenstoegang vanuit Machine Learning Studio gebruikgemaakt van een door de werkruimte beheerde identiteit voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als Lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te kunnen aanmelden. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtiging beschikt. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkMeer informatie

Retouren

Retourneert de Azure Data Lake Gen2-gegevensopslag.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.

register_azure_file_share

Registreer een Azure-bestandsshare bij het gegevensarchief.

U kunt ervoor kiezen om een SAS-token of een opslagaccountsleutel te gebruiken

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief, niet hoofdlettergevoelig, mag alleen alfanumerieke tekens en _bevatten.

file_share_name
str
Vereist

De naam van de Azure-bestandscontainer.

account_name
str
Vereist

De naam van het opslagaccount.

sas_token
str, <xref:optional>
standaardwaarde: None

Een SAS-token voor een account, standaard ingesteld op Geen. Voor het lezen van gegevens hebben we een minimum van lijst- & leesmachtigingen nodig voor Containers &-objecten en voor het schrijven van gegevens hebben we bovendien schrijfmachtigingen & Toevoegen nodig.

account_key
str, <xref:optional>
standaardwaarde: None

Toegangssleutels van uw opslagaccount zijn standaard ingesteld op Geen.

protocol
str, <xref:optional>
standaardwaarde: None

Het protocol dat moet worden gebruikt om verbinding te maken met de bestandsshare. Indien Geen, wordt standaard ingesteld op https.

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van de bestandsshare. Indien Geen, wordt standaard ingesteld op core.windows.net.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

create_if_not_exists
bool, <xref:optional>
standaardwaarde: False

Of de bestandsshare moet worden gemaakt als deze niet bestaat. De standaardwaarde is False.

skip_validation
bool, <xref:optional>
standaardwaarde: False

Of u de validatie van opslagsleutels wilt overslaan. De standaardwaarde is False.

Retouren

Het gegevensarchief van het bestand.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.

register_azure_my_sql

Initialiseer een nieuw Azure MySQL-gegevensarchief.

MySQL-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en uitvoer naar DataTransferStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.

Hieronder vindt u een voorbeeld van het registreren van een Azure MySQL-database als een gegevensarchief.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

server_name
str
Vereist

De naam van de MySQL-server.

database_name
str
Vereist

De naam van de MySQL-database.

user_id
str
Vereist

De gebruikers-id van de MySQL-server.

user_password
str
Vereist

Het gebruikerswachtwoord van de MySQL-server.

port_number
str
standaardwaarde: None

Het poortnummer van de MySQL-server.

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van de MySQL-server. Indien Geen, wordt standaard ingesteld op mysql.database.azure.com.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

Retouren

Retourneert het gegevensarchief van de MySQL-database.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Initialiseer een nieuw Azure PostgreSQL-gegevensarchief.

Hieronder vindt u een voorbeeld van het registreren van een Azure PostgreSQL-database als een gegevensarchief.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

server_name
str
Vereist

De naam van de PostgreSQL-server.

database_name
str
Vereist

De naam van de PostgreSQL-database.

user_id
str
Vereist

De gebruikers-id van de PostgreSQL-server.

user_password
str
Vereist

Het gebruikerswachtwoord van de PostgreSQL-server.

port_number
str
standaardwaarde: None

Het poortnummer van de PostgreSQL-server

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van de PostgreSQL-server. Indien Geen, wordt standaard ingesteld op postgres.database.azure.com.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

enforce_ssl
bool
standaardwaarde: True

Geeft de SSL-vereiste van de PostgreSQL-server aan. De standaardwaarde is True.

Retouren

Retourneert het Gegevensarchief van de PostgreSQL-database.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Initialiseer een nieuw Azure SQL databasegegevensarchief.

Toegang tot gegevens op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt ervoor kiezen om service-principal of gebruikersnaam + wachtwoord te gebruiken. Als er geen referenties worden opgeslagen in het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als hiermee rechtstreeks een van deze functies wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.

Hieronder vindt u een voorbeeld van het registreren van een Azure SQL-database als een gegevensarchief.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

server_name
str
Vereist

De naam van de SQL-server. Voor een volledig gekwalificeerde domeinnaam, zoals 'sample.database.windows.net', moet de server_name-waarde 'sample' zijn en moet de eindpuntwaarde 'database.windows.net' zijn.

database_name
str
Vereist

De naam van de SQL-database.

tenant_id
str
standaardwaarde: None

De directory-id/tenant-id van de service-principal.

client_id
str
standaardwaarde: None

De client-id/toepassings-id van de service-principal.

client_secret
str
standaardwaarde: None

Het geheim van de service-principal.

resource_url
str, <xref:optional>
standaardwaarde: None

De resource-URL, die bepaalt welke bewerkingen worden uitgevoerd in het SQL-databasearchief, indien geen, wordt standaard ingesteld op https://database.windows.net/.

authority_url
str, <xref:optional>
standaardwaarde: None

De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, is standaard ingesteld op https://login.microsoftonline.com.

endpoint
str, <xref:optional>
standaardwaarde: None

Het eindpunt van de SQL-server. Indien Geen, wordt standaard ingesteld op database.windows.net.

overwrite
bool, <xref:optional>
standaardwaarde: False

Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False.

username
str
standaardwaarde: None

De gebruikersnaam van de databasegebruiker voor toegang tot de database.

password
str
standaardwaarde: None

Het wachtwoord van de databasegebruiker voor toegang tot de database.

skip_validation
bool, <xref:optional>
Vereist

Of de validatie van het maken van verbinding met de SQL-database moet worden overgeslagen. Standaard ingesteld op False.

subscription_id
str, <xref:optional>
standaardwaarde: None

De id van het abonnement waartoe het ADLS-archief behoort.

resource_group
str, <xref:optional>
standaardwaarde: None

De resourcegroep waartoe het ADLS-archief behoort.

grant_workspace_access
bool, <xref:optional>
standaardwaarde: False

Standaard ingesteld op False. Stel deze optie in op Waar om vanuit Machine Learning Studio toegang te krijgen tot gegevens achter een virtueel netwerk. Hierdoor wordt voor de toegang tot gegevens vanuit Machine Learning Studio een door de werkruimte beheerde identiteit gebruikt voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als Lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te melden. Vraag de beheerder om dit voor u te configureren als u niet over de vereiste machtiging beschikt. Meerhttps://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network informatie

Retouren

Retourneert het gegevensarchief van de SQL-database.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Initialiseer een nieuw DBFS-gegevensarchief (Databricks File System).

Het DBFS-gegevensarchief kan alleen worden gebruikt voor het maken van DataReference als invoer en PipelineData als uitvoer naar DatabricksStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.

static register_dbfs(workspace, datastore_name)

Parameters

workspace
Workspace
Vereist

De werkruimte waartoe dit gegevensarchief behoort.

datastore_name
str
Vereist

De naam van het gegevensarchief.

Retouren

Hiermee wordt het DBFS-gegevensarchief geretourneerd.

Retourtype

Opmerkingen

Als u opslag koppelt vanuit een andere regio dan de werkruimteregio, kan dit leiden tot hogere latentie en extra netwerkgebruikskosten.

register_hdfs

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Initialiseer een nieuw HDFS-gegevensarchief.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parameters

workspace
Workspace
Vereist

de werkruimte waartoe dit gegevensarchief behoort

datastore_name
str
Vereist

de naam van het gegevensarchief

protocol
str of <xref:_restclient.models.enum>
Vereist

Het protocol dat moet worden gebruikt bij de communicatie met het HDFS-cluster. http of https. Mogelijke waarden zijn: 'http', 'https'

namenode_address
str
Vereist

Het IP-adres of de DNS-hostnaam van het HDFS-naamknooppunt. Bevat optioneel een poort.

hdfs_server_certificate
str, <xref:optional>
Vereist

Het pad naar het TLS-handtekeningcertificaat van het HDFS-naamknooppunt als u TLS gebruikt met een zelfondertekend certificaat.

kerberos_realm
str
Vereist

Het Kerberos-rijk.

kerberos_kdc_address
str
Vereist

Het IP-adres of de DNS-hostnaam van de Kerberos KDC.

kerberos_principal
str
Vereist

De Kerberos-principal die moet worden gebruikt voor verificatie en autorisatie.

kerberos_keytab
str, <xref:optional>
Vereist

Het pad naar het keytab-bestand met de sleutel(en) die overeenkomen met de Kerberos-principal. Geef dit of een wachtwoord op.

kerberos_password
str, <xref:optional>
Vereist

Het wachtwoord dat overeenkomt met de Kerberos-principal. Geef dit op of het pad naar een keytab-bestand.

overwrite
bool, <xref:optional>
Vereist

Hiermee wordt een bestaand gegevensarchief overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. Standaard ingesteld op False.

set_as_default

Stel het standaardgegevensarchief in.

set_as_default()

Parameters

datastore_name
str
Vereist

De naam van het gegevensarchief.

unregister

De registratie van het gegevensarchief ongedaan maken. de onderliggende opslagservice wordt niet verwijderd.

unregister()