Configuración del almacenamiento de flujo de datos para usar Azure Data Lake Gen 2

Los datos que se usan con Power BI se almacenan en el almacenamiento interno proporcionado por Power BI de forma predeterminada. Con la integración de flujos de datos y Azure Data Lake Storage Gen 2 (ADLS Gen 2), puede almacenar los flujos de datos en la cuenta de Azure Data Lake Storage Gen 2 de su organización. Esto le permite básicamente "traer su propio almacenamiento" para flujos de datos de Power BI y establecer una conexión en el nivel de inquilino o de área de trabajo.

Razones para usar el área de trabajo o la conexión de inquilino de ADLS Gen2

Después de adjuntar el flujo de datos, Power BI configura y guarda una referencia para que pueda leer y escribir datos en su propio ADLS Gen2. Power BI almacena los datos en formato CDM, que captura los metadatos acerca de los datos, además de los datos reales generados por el propio flujo de datos. De este modo, se desbloquea una gran cantidad de funcionalidades eficaces y se habilitan los datos y los metadatos asociados en formato CDM para ofrecer ahora escenarios de extensibilidad, automatización, supervisión y copia de seguridad. Al hacer que estos datos estén disponibles y ampliamente accesibles en su propio entorno, le permite democratizar la información y los datos creados dentro de la organización. También desbloquea automáticamente la capacidad de crear más soluciones que reconocen CDM (como las aplicaciones personalizadas y las soluciones en Power Platform, Azure, y las que están disponibles a través de los ecosistemas de asociados e ISV) o simplemente pueden leer un CSV. Los ingenieros de datos, científicos de datos y analistas pueden trabajar ahora con un conjunto común de datos mantenido en ADLS Gen2, usarlo y reutilizarlo.

Hay dos maneras de configurar qué almacén de ADLS Gen2 se va a usar: puede usar una cuenta de ADLS Gen2 asignada al inquilino o bien traer su propio almacén de ADLS Gen2 de nivel de área de trabajo.

Requisitos previos

  • Para traer su propia cuenta de ADLS Gen2, debe tener permisos de propietario en la capa de la cuenta de almacenamiento. Los permisos en el nivel de grupo de recursos o suscripción no funcionarán. Si es administrador, sigue teniendo que asignarse a sí mismo permiso de propietario. En estos momentos no se admiten las cuentas de almacenamiento de ADLS Gen2 ubicadas tras un firewall.

  • La cuenta de almacenamiento se debe crear con el espacio de nombres jerárquico habilitado.

  • La cuenta de almacenamiento debe crearse en el mismo inquilino de Azure Active Directory que el inquilino de Power BI.

  • Se necesita TLS (seguridad de la capa de transporte), versión 1.2 (o posterior), para proteger los puntos de conexión. Los exploradores web y otras aplicaciones cliente que utilizan versiones de TLS anteriores a TLS 1.2 no podrán conectarse.

  • La cuenta de ADLS Gen2debe implementarse en la misma región que el inquilino de Power BI. Se producirá un error si las ubicaciones de los recursos no están en la misma región.

  • Por último, puede conectarse a cualquier ADLS Gen2desde el portal de administración, pero si se conecta directamente a un área de trabajo, debe asegurarse de que no haya flujos de datos en el área de trabajo antes de conectarse.

En la tabla siguiente se describen los permisos para ADLS y Power BI necesarios para ADLS Gen2y Power BI:

Acción Permisos de ADLS Permisos mínimos de Power BI
Conectar ADLS Gen2 al inquilino de Power BI Propietario Administrador de Power BI
Conectar ADLS Gen2al área de trabajo Propietario Administrador del área de trabajo
Crear flujos de datos de Power BI escribiendo de nuevo en la cuenta de ADLS conectada No aplicable Colaborador del área de trabajo
Consumir flujo de datos de Power BI No aplicable Visor del área de trabajo

Conexión a Azure Data Lake Gen2en un nivel de área de trabajo

Vaya a un área de trabajo que no tenga flujos de datos. Seleccione Configuración del área de trabajo. Seleccione la pestaña Azure Connections (Conexiones de Azure) y, después, seleccione la sección Almacenamiento.

Conexión con Azure

Si el administrador ya ha configurado una cuenta de ADLS Gen2 asignada al inquilino, la opción Usar la conexión predeterminada de Azure estará visible. Tiene dos opciones:

  • Usar la cuenta de ADLS Gen2 configurada para un inquilino mediante la selección del cuadro denominado Usar la conexión predeterminada de Azure.
  • Seleccionar Conectarse a Azure para apuntar a una nueva cuenta de Azure Storage.

Al seleccionar Conectarse a Azure, Power BI recupera una lista de las suscripciones de Azure a las que se tiene acceso. Rellene las listas desplegables y seleccione una suscripción de Azure válida, un grupo de recursos y una cuenta de almacenamiento que tenga habilitada la opción de espacio de nombres jerárquico, que es la marca de ADLS Gen2.

detalles de la suscripción

Una vez seleccionado, haga clic en Guardar. Ya ha conectado correctamente el área de trabajo a su propia cuenta de ADLS Gen2. Power BI configura automáticamente la cuenta de almacenamiento con los permisos necesarios y configura el sistema de archivos de Power BI en el que se escribirán los datos. En este momento, todos los datos del flujo de datos de esta área de trabajo escribirán directamente en este sistema de archivos, que se puede usar con otros servicios de Azure, con lo que se crea un solo origen para todos los datos de la organización o del departamento.

Descripción de la configuración

La configuración de conexiones de Azure es un valor opcional con propiedades adicionales que se pueden establecer opcionalmente:

  • Almacenamiento de nivel de inquilino, que permite establecer un valor predeterminado, o
  • Almacenamiento de nivel de área de trabajo, que permite especificar la conexión por área de trabajo.

Opcionalmente, puede configurar el almacenamiento de nivel de inquilino si quiere usar solo un lago de datos centralizado o bien si quiere que sea la opción predeterminada. No comenzamos a usar automáticamente el valor predeterminado en aras de una mayor flexibilidad en la configuración, por lo que tiene flexibilidad para configurar las áreas de trabajo que usan esta conexión según estime oportuno. Si configura una cuenta de ADLS Gen2 asignada al inquilino, tendrá que configurar cada área de trabajo para usar esta opción predeterminada.

Opcionalmente, o además de la opción anterior, puede configurar los permisos de almacenamiento de nivel de área de trabajo como una opción independiente, lo que proporciona flexibilidad total para establecer una cuenta específica de ADLS Gen2 en función del área de trabajo.

En resumen, si se permiten permisos de almacenamiento de nivel de inquilino y de nivel de área de trabajo, los administradores del área de trabajo podrán usar opcionalmente la conexión ADLS predeterminada u optar por configurar otra cuenta de almacenamiento independiente del valor predeterminado. Si no se establece el almacenamiento de inquilinos, los administradores del área de trabajo podrán configurar opcionalmente cuentas de ADLS en función del área de trabajo. Por último, si se selecciona el almacenamiento de nivel de inquilino y no se permite el almacenamiento en el nivel de área de trabajo, los administradores del área de trabajo podrán configurar opcionalmente sus flujos de datos para usar esta conexión.

Descripción de la estructura y el formato de las conexiones del área de trabajo de ADLS Gen2

En la cuenta de almacenamiento de ADLS Gen2, todos los flujos de datos se almacenan en el contenedor powerbi del sistema de archivos.

La estructura del contenedor powerbi tiene este aspecto: <workspace name>/<dataflow name>/model.json <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>.

La ubicación donde los flujos de datos almacenan datos en la jerarquía de carpetas de ADLS Gen2 viene determinada por si el área de trabajo se encuentra en capacidad compartida o en capacidad Premium. La estructura de archivos después de la actualización de cada tipo de capacidad se muestra en la tabla siguiente.

Capacidad Premium Capacidad compartida
<workspace name>/<dataflow name>/<table name>/<tablesnapshots> <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

A continuación se muestra un ejemplo del uso de la tabla de pedidos del ejemplo Northwind OData.

El ejemplo Northwind que muestra la tabla de pedidos

En la imagen anterior:

  • Model.json es la versión más reciente del flujo de datos.
  • Las instantáneas model.json son todas versiones anteriores del flujo de datos. Esto resulta útil si necesita una versión anterior de mashup o una configuración incremental.
  • Table.snapshots.csv son los datos que ha recibido de una actualización. Esto resulta útil para las actualizaciones incrementales y también para las actualizaciones compartidas en las que un usuario tiene un problema de tiempo de espera de actualización debido al tamaño de los datos. Pueden examinar la instantánea más reciente para ver la cantidad de datos que hay en el archivo CSV.

Solo escribimos en esta cuenta de almacenamiento y no eliminamos datos actualmente. Esto significa que, incluso después de finalizar la desasociación, no se eliminarán de la cuenta ADLS, por lo que todos los archivos anteriores todavía están almacenados.

Nota

Un archivo model.json puede hacer referencia a otro model.json que está en otro flujo de datos de la misma área de trabajo o en un flujo de datos de otra área de trabajo. La única vez en la que un model.json hace referencia a un table.snapshot.csv es para la actualización incremental.

Extensibilidad de las conexiones del área de trabajo de ADLS Gen2

Si va a conectar ADLS Gen2a Power BI, puede hacerlo en el nivel de área de trabajo o de inquilino. Asegúrese de que tiene el nivel de acceso correcto. Obtenga más información en Requisitos previos.

La estructura de almacenamiento se ajusta al formato de Common Data Model. Para obtener más información sobre la estructura de almacenamiento y CDM, consulte ¿Cuál es la estructura de almacenamiento para flujos de datos analíticos? y Uso de Common Data Model y Azure Data Lake Storage Gen2.

Una vez configurado correctamente, los datos y los metadatos estarán bajo su control. Una serie de aplicaciones son conscientes del CDM y los datos se pueden extender con Azure, PowerApps y PowerAutomate, así como con los ecosistemas de terceros, ya sea conforme al formato o leyendo los datos sin procesar.

Desasociar Azure Data Lake Gen 2 de un área de trabajo o un inquilino

Para quitar una conexión de nivel de área de trabajo, primero debe asegurarse de que se eliminen todos los flujos de datos del área de trabajo. Una vez que se hayan quitado todos los flujos de datos, seleccione Desconectar en la configuración del área de trabajo. Lo mismo se aplica a los inquilinos, pero debe asegurarse de que todas las áreas de trabajo se hayan desconectado también de la cuenta de almacenamiento de los inquilinos para poder desconectarse a nivel de inquilino.

Deshabilitación de Azure Data Lake Gen 2

En el portal de administración, en flujos de datos, puede deshabilitar el acceso de los usuarios para usar esta característica y puede impedir que los administradores del área de trabajo traigan su propia cuenta de Azure Storage.

Revertir desde Azure Data Lake Gen2

Una vez configurado el almacenamiento de flujo de datos para usar Azure Data Lake Gen2, no hay ningún modo de revertir el proceso automáticamente. El proceso para volver al almacenamiento administrado de Power BI es manual.

Para revertir la migración realizada a Gen2, deberá eliminar los flujos de datos y volver a crearlos en la misma área de trabajo. Después, dado que no eliminamos datos de ADLS Gen2, vaya al propio recurso y limpie los datos. Esto implicaría los pasos siguientes.

  1. Exporte una copia del flujo de datos desde Power BI. O bien, copie el archivo model.json. El archivo model.json se almacena en ADLS.

  2. Elimine los flujos de datos.

  3. Desasocie ADLS.

  4. Vuelva a crear los flujos de datos mediante la importación. Tenga en cuenta que los datos de actualización incremental (si procede) deberán eliminarse antes de la importación. Para ello, elimine las particiones pertinentes en el archivo model.json.

  5. Configure las directivas de actualización incremental de actualizar o volver a crear.

Conexión a los datos mediante el conector de ADLS Gen2

El ámbito de este documento describe las conexiones de flujos de datos de ADLS Gen2y no el conector de Power BI ADLS Gen2. El uso del conector de ADLS Gen2es un escenario independiente, posiblemente aditivo. El conector de ADLS simplemente usa ADLS como origen de datos. Esto significa que el uso de PQO para realizar consultas de los datos no tiene que estar en formato CDM, puede ser cualquier formato de datos que quiera el cliente. Para obtener más información acerca de este escenario, consulte Análisis de datos en Azure Data Lake Storage Gen2 con Power BI.

Pasos siguientes

En los artículos siguientes encontrará más información sobre los flujos de datos y Power BI: