Datastore Clase

Representa una abstracción de almacenamiento en una cuenta de almacenamiento de Azure Machine Learning.

Los almacenes de datos están asociados a áreas de trabajo y se usan para almacenar información de conexión en los servicios de almacenamiento de Azure para que pueda hacer referencia a ellos por nombre y no necesite recordar la información de conexión y el secreto usados para conectarse a los servicios de almacenamiento.

Los siguientes son ejemplos de servicios de almacenamiento de Azure compatibles que se pueden registrar como almacenes de datos:

  • Azure Blob Container

  • Recurso compartido de archivos de Azure

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Azure SQL Database

  • Azure Database for PostgreSQL

  • Sistema de archivos de Databricks

  • Azure Database for MySQL

Use esta clase para realizar operaciones de administración, como registrar, enumerar, obtener y quitar almacenes de datos. Los almacenes de datos para cada servicio se crean con los métodos register* de esta clase. Cuando se usa un almacén de datos para acceder a los datos, debe tener permiso para acceder a ellos, lo que depende de las credenciales registradas en el almacén de datos.

Para más información sobre los almacenes de datos y cómo se pueden usar en el aprendizaje automático, consulte los siguientes artículos:

Obtiene un almacén de datos por nombre. Esta llamada realizará una solicitud al servicio de almacén de datos.

Herencia
builtins.object
Datastore

Constructor

Datastore(workspace, name=None)

Parámetros

workspace
Workspace
Requerido

Área de trabajo.

name
str, <xref:optional>
valor predeterminado: None

El nombre del almacén de datos tiene como valor predeterminado None, que obtiene el almacén de datos predeterminado.

Comentarios

Para interactuar con los datos de los almacenes de datos para tareas de aprendizaje automático, como el entrenamiento, cree un conjunto de datos de Azure Machine Learning. Los conjuntos de datos proporcionan funciones que cargan datos tabulares en un DataFrame de Pandas o Spark. Los conjuntos de datos también proporcionan la capacidad de descargar o montar archivos de cualquier formato desde Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database y Azure Database for PostgreSQL. Obtenga más información sobre cómo entrenar con conjuntos de datos.

En el ejemplo siguiente se muestra cómo crear un almacén de datos conectado al contenedor de blobs de Azure.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb.

Métodos

get

Obtiene un almacén de datos por nombre. Es igual que llamar al constructor.

get_default

Obtiene el almacén de datos predeterminado para el área de trabajo.

register_azure_blob_container

Registra un contenedor de blobs de Azure en el almacén de datos.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede optar por usar el token de SAS o la clave de cuenta de almacenamiento. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

register_azure_data_lake

Inicializa un nuevo almacén de datos de Azure Data Lake.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una instancia de Azure Data Lake Gen1 como almacén de datos.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Inicializa un nuevo almacén de datos de Azure Data Lake Gen2.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

register_azure_file_share

Registra un recurso compartido de archivos de Azure en el almacén de datos.

Puede optar por usar el token de SAS o la clave de cuenta de almacenamiento.

register_azure_my_sql

Inicializa un nuevo almacén de datos de Azure MySQL.

El almacén de datos MySQL solo se puede usar para crear DataReference como entrada y salida para DataTransferStep en canalizaciones de Azure Machine Learning. Se pueden encontrar más detalles aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure MySQL como almacén de datos.

register_azure_postgre_sql

Inicializa un nuevo almacén de datos de Azure PostgreSQL.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure PostgreSQL como almacén de datos.

register_azure_sql_database

Inicialice un nuevo almacén de datos de base de datos Azure SQL.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar), puede optar por usar la entidad de servicio o el nombre de usuario + contraseña. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure SQL como almacén de datos.

register_dbfs

Inicializa un nuevo almacén de datos del Sistema de archivos de Databricks (DBFS).

El almacén de datos DBFS solo se puede usar para crear DataReference como entrada y PipelineData como salida para DatabricksStep en canalizaciones de Azure Machine Learning. Se pueden encontrar más detalles aquí.

register_hdfs

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Inicialice un nuevo almacén de datos de HDFS.

set_as_default

Establece el almacén de datos predeterminado.

unregister

Anula el registro del almacén de datos. El servicio de almacenamiento subyacente no se eliminará.

get

Obtiene un almacén de datos por nombre. Es igual que llamar al constructor.

static get(workspace, datastore_name)

Parámetros

workspace
Workspace
Requerido

Área de trabajo.

datastore_name
str, <xref:optional>
Requerido

El nombre del almacén de datos tiene como valor predeterminado None, que obtiene el almacén de datos predeterminado.

Devoluciones

Almacén de datos correspondiente para ese nombre.

Tipo de valor devuelto

get_default

Obtiene el almacén de datos predeterminado para el área de trabajo.

static get_default(workspace)

Parámetros

workspace
Workspace
Requerido

Área de trabajo.

Devoluciones

Almacén de datos predeterminado para el área de trabajo

Tipo de valor devuelto

register_azure_blob_container

Registra un contenedor de blobs de Azure en el almacén de datos.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede optar por usar el token de SAS o la clave de cuenta de almacenamiento. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parámetros

workspace
Workspace
Requerido

Área de trabajo.

datastore_name
str
Requerido

El nombre del almacén de datos, que no distingue mayúsculas de minúsculas, solo puede contener caracteres alfanuméricos y _.

container_name
str
Requerido

Nombre del contenedor de blobs de Azure.

account_name
str
Requerido

El nombre de la cuenta de almacenamiento.

sas_token
str, <xref:optional>
valor predeterminado: None

Un token de SAS de cuenta es de forma predeterminada None. En el caso de la lectura de datos, necesitamos un mínimo de permisos de lectura de lista & para contenedores & Objetos y para la escritura de datos, además, necesitamos permisos De escritura & Agregar.

account_key
str, <xref:optional>
valor predeterminado: None

Las claves de acceso de la cuenta de almacenamiento tienen como valor predeterminado None.

protocol
str, <xref:optional>
valor predeterminado: None

Protocolo que se va a usar para conectar con el contenedor de blobs. Si es None, el valor predeterminado es HTTPS.

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión de la cuenta de almacenamiento. Si es None, el valor predeterminado es core.windows.net.

overwrite
bool, <xref:optional>
valor predeterminado: False

Sobrescribe un almacén de datos existente. Si el almacén de datos no existe, creará uno; el valor predeterminado es False.

create_if_not_exists
bool, <xref:optional>
valor predeterminado: False

Crea el contenedor de blobs si no existe; el valor predeterminado es False.

skip_validation
bool, <xref:optional>
valor predeterminado: False

Omite la validación de claves de almacenamiento; el valor predeterminado es False.

blob_cache_timeout
int, <xref:optional>
valor predeterminado: None

Cuando se monta este blob, establece el tiempo de espera de caché en este número de segundos. Si es None, el valor predeterminado es sin tiempo de espera (es decir, los blobs se almacenarán en caché mientras dure el trabajo cuando se lea).

grant_workspace_access
bool, <xref:optional>
valor predeterminado: False

El valor predeterminado es False. Se debe establecer en True para acceder a los datos que hay detrás de la red virtual desde Machine Learning Studio. Esto hará que en el acceso a los datos desde Machine Learning Studio se use la identidad administrada del área de trabajo para la autenticación y se agregue la identidad administrada del área de trabajo como lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para poder elegir esta característica. Pida al administrador que la configure si no tiene el permiso necesario. Más información en "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network".

subscription_id
str, <xref:optional>
valor predeterminado: None

El identificador de suscripción de la cuenta de almacenamiento tiene como valor predeterminado None.

resource_group
str, <xref:optional>
valor predeterminado: None

El grupo de recursos de la cuenta de almacenamiento tiene como valor predeterminado None.

Devoluciones

Almacén de datos de blobs.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.

register_azure_data_lake

Inicializa un nuevo almacén de datos de Azure Data Lake.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una instancia de Azure Data Lake Gen1 como almacén de datos.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

store_name
str
Requerido

Nombre del almacén de ADLS.

tenant_id
str, <xref:optional>
valor predeterminado: None

Identificador de directorio o identificador de inquilino de la entidad de servicio que se usa para acceder a los datos.

client_id
str, <xref:optional>
valor predeterminado: None

Identificador de cliente o identificador de aplicación de la entidad de servicio que se usa para acceder a los datos.

client_secret
str, <xref:optional>
valor predeterminado: None

Secreto de cliente de la entidad de servicio que se usa para acceder a los datos.

resource_url
str, <xref:optional>
valor predeterminado: None

Dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de Data Lake; si es None, el valor predeterminado es https://datalake.azure.net/, lo que permite realizar operaciones del sistema de archivos.

authority_url
str, <xref:optional>
valor predeterminado: None

Dirección URL de la autoridad que se usa para autenticar al usuario, de manera predeterminada es https://login.microsoftonline.com.

subscription_id
str, <xref:optional>
valor predeterminado: None

Identificador de la suscripción a la que pertenece el almacén de ADLS.

resource_group
str, <xref:optional>
valor predeterminado: None

Grupo de recursos al que pertenece el almacén de ADLS.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

grant_workspace_access
bool, <xref:optional>
valor predeterminado: False

El valor predeterminado es False. Se debe establecer en True para acceder a los datos que hay detrás de la red virtual desde Machine Learning Studio. Esto hará que en el acceso a los datos desde Machine Learning Studio se use la identidad administrada del área de trabajo para la autenticación y se agregue la identidad administrada del área de trabajo como lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para poder elegir esta característica. Pida al administrador que la configure si no tiene el permiso necesario. Más información en "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network".

Devoluciones

Devuelve el almacén de datos de Azure Data Lake.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.

Nota

El almacén de datos de Azure Data Lake admite la transferencia de datos y la ejecución de trabajos U-Sql mediante canalizaciones de Azure Machine Learning.

También puede usarlo como origen de datos para el conjunto de datos de Azure Machine Learning que se puede descargar o montar en cualquier proceso compatible.

register_azure_data_lake_gen2

Inicializa un nuevo almacén de datos de Azure Data Lake Gen2.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar); puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

filesystem
str
Requerido

Nombre del sistema de archivos de Data Lake Gen2.

account_name
str
Requerido

El nombre de la cuenta de almacenamiento.

tenant_id
str, <xref:optional>
valor predeterminado: None

Identificador de directorio o identificador de inquilino de la entidad de servicio.

client_id
str, <xref:optional>
valor predeterminado: None

Identificador de la aplicación/identificador de cliente de la entidad de servicio

client_secret
str, <xref:optional>
valor predeterminado: None

Secreto de la entidad de servicio.

resource_url
str, <xref:optional>
valor predeterminado: None

Dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de Data Lake, es https://storage.azure.com/ de manera predeterminada, lo que permite realizar operaciones del sistema de archivos.

authority_url
str, <xref:optional>
valor predeterminado: None

Dirección URL de la autoridad que se usa para autenticar al usuario, de manera predeterminada es https://login.microsoftonline.com.

protocol
str, <xref:optional>
valor predeterminado: None

Protocolo que se va a usar para conectar con el contenedor de blobs. Si es None, el valor predeterminado es HTTPS.

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión de la cuenta de almacenamiento. Si es None, el valor predeterminado es core.windows.net.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

subscription_id
str, <xref:optional>
valor predeterminado: None

Identificador de la suscripción a la que pertenece el almacén de ADLS.

resource_group
str, <xref:optional>
valor predeterminado: None

Grupo de recursos al que pertenece el almacén de ADLS.

grant_workspace_access
bool, <xref:optional>
valor predeterminado: False

El valor predeterminado es False. Se debe establecer en True para acceder a los datos que hay detrás de la red virtual desde Machine Learning Studio. Esto hará que en el acceso a los datos desde Machine Learning Studio se use la identidad administrada del área de trabajo para la autenticación y se agregue la identidad administrada del área de trabajo como lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para poder elegir esta característica. Pida al administrador que la configure si no tiene el permiso necesario. Más información en "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network".

Devoluciones

Devuelve el almacén de datos de Azure Data Lake Gen2.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.

register_azure_file_share

Registra un recurso compartido de archivos de Azure en el almacén de datos.

Puede optar por usar el token de SAS o la clave de cuenta de almacenamiento.

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

El nombre del almacén de datos, que no distingue mayúsculas de minúsculas, solo puede contener caracteres alfanuméricos y _.

file_share_name
str
Requerido

Nombre del contenedor de archivos de Azure.

account_name
str
Requerido

El nombre de la cuenta de almacenamiento.

sas_token
str, <xref:optional>
valor predeterminado: None

Un token de SAS de cuenta es de forma predeterminada None. Para la lectura de datos, necesitamos un mínimo de permisos de lectura de & de lista para contenedores & objetos y, para la escritura de datos, también se requieren permisos de escritura & Agregar.

account_key
str, <xref:optional>
valor predeterminado: None

Las claves de acceso de la cuenta de almacenamiento tienen como valor predeterminado None.

protocol
str, <xref:optional>
valor predeterminado: None

Protocolo que se usará para conectarse al recurso compartido de archivos. Si es None, el valor predeterminado es HTTPS.

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión del recurso compartido de archivos. Si es None, el valor predeterminado es core.windows.net.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

create_if_not_exists
bool, <xref:optional>
valor predeterminado: False

Si se va a crear el recurso compartido de archivos si no existe. El valor predeterminado es False.

skip_validation
bool, <xref:optional>
valor predeterminado: False

Si se omite la validación de claves de almacenamiento. El valor predeterminado es False.

Devoluciones

Almacén de datos de archivos.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.

register_azure_my_sql

Inicializa un nuevo almacén de datos de Azure MySQL.

El almacén de datos MySQL solo se puede usar para crear DataReference como entrada y salida para DataTransferStep en canalizaciones de Azure Machine Learning. Se pueden encontrar más detalles aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure MySQL como almacén de datos.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

server_name
str
Requerido

Nombre del servidor MySQL.

database_name
str
Requerido

Nombre de la base de datos MySQL.

user_id
str
Requerido

Id. de usuario del servidor MySQL.

user_password
str
Requerido

Contraseña de usuario del servidor MySQL.

port_number
str
valor predeterminado: None

Número de puerto del servidor MySQL.

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión del servidor MySQL. Si es None, el valor predeterminado es mysql.database.azure.com.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

Devoluciones

Devuelve el almacén de datos de la base de datos MySQL.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicializa un nuevo almacén de datos de Azure PostgreSQL.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure PostgreSQL como almacén de datos.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

server_name
str
Requerido

Nombre del servidor PostgreSQL.

database_name
str
Requerido

Nombre de la base de datos PostgreSQL.

user_id
str
Requerido

Id. de usuario del servidor PostgreSQL.

user_password
str
Requerido

Contraseña de usuario del servidor PostgreSQL.

port_number
str
valor predeterminado: None

Número de puerto del servidor PostgreSQL

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión del servidor PostgreSQL. Si es None, el valor predeterminado es postgres.database.azure.com.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

enforce_ssl
bool
valor predeterminado: True

Indica el requisito SSL del servidor PostgreSQL. El valor predeterminado es True.

Devoluciones

Devuelve el almacén de datos de la base de datos PostgreSQL.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicialice un nuevo almacén de datos de base de datos Azure SQL.

Se admite el acceso a datos basado en credenciales (GA) y en identidades (versión preliminar), puede optar por usar la entidad de servicio o el nombre de usuario + contraseña. Si no se guarda ninguna credencial en el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa local de Python si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files; la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación del acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos Azure SQL como almacén de datos.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

server_name
str
Requerido

Nombre de SQL Server. Para el nombre de dominio completo como "sample.database.windows.net", el valor server_name debe ser "sample" y el valor del punto de conexión debe ser "database.windows.net".

database_name
str
Requerido

Nombre de la base de datos SQL.

tenant_id
str
valor predeterminado: None

Identificador de directorio o identificador de inquilino de la entidad de servicio.

client_id
str
valor predeterminado: None

Identificador de la aplicación/identificador de cliente de la entidad de servicio

client_secret
str
valor predeterminado: None

Secreto de la entidad de servicio.

resource_url
str, <xref:optional>
valor predeterminado: None

La dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de base de datos SQL, si es None, tiene como valor predeterminado https://database.windows.net/.

authority_url
str, <xref:optional>
valor predeterminado: None

Dirección URL de la autoridad que se usa para autenticar al usuario, de manera predeterminada es https://login.microsoftonline.com.

endpoint
str, <xref:optional>
valor predeterminado: None

Punto de conexión de SQL Server. Si es None, el valor predeterminado es database.windows.net.

overwrite
bool, <xref:optional>
valor predeterminado: False

Si se sobrescribirá un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

username
str
valor predeterminado: None

Nombre del usuario de la base de datos para acceder a la base de datos.

password
str
valor predeterminado: None

Contraseña del usuario de la base de datos para acceder a la base de datos.

skip_validation
bool, <xref:optional>
Requerido

Si se omite la validación de la conexión a la base de datos SQL. El valor predeterminado es False.

subscription_id
str, <xref:optional>
valor predeterminado: None

Identificador de la suscripción a la que pertenece el almacén de ADLS.

resource_group
str, <xref:optional>
valor predeterminado: None

Grupo de recursos al que pertenece el almacén de ADLS.

grant_workspace_access
bool, <xref:optional>
valor predeterminado: False

El valor predeterminado es False. Se debe establecer en True para acceder a los datos que hay detrás de la red virtual desde Machine Learning Studio. Esto hará que en el acceso a los datos desde Machine Learning Studio se use la identidad administrada del área de trabajo para la autenticación y se agregue la identidad administrada del área de trabajo como lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para poder elegir esta característica. Pida al administrador que la configure si no tiene el permiso necesario. Más información en "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network".

Devoluciones

Devuelve el almacén de datos de la base de datos SQL.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicializa un nuevo almacén de datos del Sistema de archivos de Databricks (DBFS).

El almacén de datos DBFS solo se puede usar para crear DataReference como entrada y PipelineData como salida para DatabricksStep en canalizaciones de Azure Machine Learning. Se pueden encontrar más detalles aquí.

static register_dbfs(workspace, datastore_name)

Parámetros

workspace
Workspace
Requerido

Área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

Nombre del almacén de datos.

Devoluciones

Devuelve el almacén de datos de DBFS.

Tipo de valor devuelto

Comentarios

Si va a asociar el almacenamiento desde una región distinta a la del área de trabajo, es posible que aumenten la latencia y los costos de uso de la red.

register_hdfs

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Inicialice un nuevo almacén de datos de HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parámetros

workspace
Workspace
Requerido

El área de trabajo a la que pertenece este almacén de datos.

datastore_name
str
Requerido

El nombre del almacén de datos.

protocol
str o <xref:_restclient.models.enum>
Requerido

El protocolo que se usará al comunicarse con el clúster de HDFS: http o https. Los valores posibles incluyen: "http" y "https".

namenode_address
str
Requerido

La dirección IP o el nombre de host DNS del servicio HDFS Namenode. Opcionalmente, incluye un puerto.

hdfs_server_certificate
str, <xref:optional>
Requerido

La ruta de acceso al certificado de firma de TLS del servicio HDFS Namenode, si se usa TLS con un certificado autofirmado.

kerberos_realm
str
Requerido

El dominio Kerberos.

kerberos_kdc_address
str
Requerido

La dirección IP o el nombre de host DNS del KDC de Kerberos.

kerberos_principal
str
Requerido

La entidad de seguridad de Kerberos que se usa para la autenticación y autorización.

kerberos_keytab
str, <xref:optional>
Requerido

La ruta de acceso al archivo keytab que contiene las claves correspondientes a la entidad de seguridad de Kerberos. Especifique esta ruta o una contraseña.

kerberos_password
str, <xref:optional>
Requerido

La contraseña correspondiente a la entidad de seguridad de Kerberos. Especifique esta contraseña o la ruta de acceso a un archivo keytab.

overwrite
bool, <xref:optional>
Requerido

Sobrescribe un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

set_as_default

Establece el almacén de datos predeterminado.

set_as_default()

Parámetros

datastore_name
str
Requerido

Nombre del almacén de datos.

unregister

Anula el registro del almacén de datos. El servicio de almacenamiento subyacente no se eliminará.

unregister()