Creación de almacenes de datos

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

En este artículo, aprenderá a conectarse a los servicios de almacenamiento de datos de Azure con almacenes de datos de Azure Machine Learning.

Requisitos previos

Nota:

Los almacenes de datos de Machine Learning no crear los recursos de la cuenta de almacenamiento subyacentes. En su lugar, vinculan una cuenta de almacenamiento de existente para el uso de Machine Learning. Los almacenes de datos de Machine Learning no son necesarios. Si tiene acceso a los datos subyacentes, puede usar directamente URI de almacenamiento.

Creación de un almacén de datos de Azure Blob

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen2

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Files

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    ),
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen1

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Creación de un almacén de datos de OneLake (Microsoft Fabric) (versión preliminar)

En esta sección se describen varias opciones para crear un almacén de datos de OneLake. El almacén de datos OneLake forma parte de Microsoft Fabric. En este momento, Machine Learning admite la conexión a artefactos de lakehouse de Microsoft Fabric que incluyen carpetas o archivos y accesos directos de Amazon S3. Para obtener más información sobre lakehouses, consulte ¿Qué es un lago en Microsoft Fabric?.

La creación del almacén de datos OneLake requiere la siguiente información de la instancia de Microsoft Fabric:

  • Punto de conexión
  • Un nombre o identificador único del área de trabajo de Fabric
  • Un nombre o identificador único del artefacto

En las tres capturas de pantalla siguientes se describe la recuperación de estos recursos de información necesarios de la instancia de Microsoft Fabric.

Nombre del área de trabajo de OneLake

En la instancia de Microsoft Fabric, puede encontrar la información del área de trabajo, como se muestra en esta captura de pantalla. Puede usar un valor GUID o un "nombre descriptivo" para crear un almacén de datos OneLake de Machine Learning.

Captura de pantalla que muestra los detalles del área de trabajo de Microsoft Fabric en la interfaz de usuario de Microsoft Fabric.

Punto de conexión de OneLake

En esta captura de pantalla se muestra cómo puede encontrar información de punto de conexión en la instancia de Microsoft Fabric.

Captura de pantalla que muestra los detalles del punto de conexión de Microsoft Fabric en la interfaz de usuario de Microsoft Fabric.

Nombre del artefacto de OneLake

En esta captura de pantalla se muestra cómo puede encontrar la información del artefacto en la instancia de Microsoft Fabric. En la captura de pantalla también se muestra cómo puede usar un valor GUID o un nombre descriptivo para crear un almacén de datos OneLake de Machine Learning.

Captura de pantalla que muestra cómo obtener los detalles del artefacto de lakehouse de Microsoft Fabric en la interfaz de usuario de Microsoft Fabric.

Creación de un almacén de datos de OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to an Microsoft fabric artifact.",
    one_lake_workspace_name="AzureML_Sample_OneLakeWS",
    endpoint="msit-onelake.dfs.fabric.microsoft.com"
    artifact = OneLakeArtifact(
        name="AzML_Sample_LH",
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Pasos siguientes