¿Cuál es la estructura de almacenamiento para flujos de datos analíticos?

Los flujos de datos analíticos almacenan datos y metadatos en Azure Data Lake Storage. Los flujos de datos aprovechan una estructura estándar para almacenar y describir los datos creados en el lago, lo que se denomina carpetas common Data Model. En este artículo, obtendrá más información sobre el estándar de almacenamiento que usan los flujos de datos en segundo plano.

Storage necesita una estructura para un flujo de datos analítico

Si el flujo de datos es estándar, los datos se almacenan en Dataverse. Dataverse es como un sistema de base de datos; tiene el concepto de tablas, vistas, etc. Dataverse es una opción de almacenamiento de datos estructurado que usan los flujos de datos estándar.

Sin embargo, cuando el flujo de datos es analítico, los datos se almacenan en Azure Data Lake Storage. Los datos y metadatos de un flujo de datos se almacenan en una carpeta Common Data Model. Dado que una cuenta de almacenamiento puede tener varios flujos de datos almacenados en ella, se ha introducido una jerarquía de carpetas y subcarpetas para ayudar a organizar los datos. Según el producto en el que se creó el flujo de datos, las carpetas y subcarpetas pueden representar áreas de trabajo (o entornos) y, a continuación, la carpeta Common Data Model del flujo de datos. Dentro de la carpeta Common Data Model, se almacenan tanto el esquema como los datos de las entidades de flujo de datos. Esta estructura sigue los estándares definidos para Common Data Model.

Analytical dataflow stores the data in the Common Data Model structure.

¿Cuál es la estructura de almacenamiento de Common Data Model?

Common Data Model es una estructura de metadatos definida para aportar conformidad y coherencia para el uso de datos en varias plataformas. Common Data Model no es el almacenamiento de datos, es la forma en que se almacenan y definen los datos.

Las carpetas de Common Data Model definen cómo se debe almacenar el esquema de una entidad y sus datos. En Azure Data Lake Storage, los datos se organizan en carpetas. Las carpetas pueden representar un área de trabajo o un entorno. En esas carpetas, se crean subcarpetas para cada flujo de datos.

Workspace folder structure.

¿Qué hay en una carpeta de flujo de datos?

Cada carpeta de flujo de datos contiene una subcarpeta para cada entidad y un archivo de metadatos denominado model.json.

What's in a dataflow folder?

El archivo de metadatos: model.json

El model.json archivo es la definición de metadatos del flujo de datos. Este es el único archivo que contiene todos los metadatos del flujo de datos. Incluye una lista de entidades, las columnas y sus tipos de datos en cada entidad, la relación entre entidades, etc. Puede exportar este archivo desde un flujo de datos fácilmente, incluso si no tiene acceso a la estructura de carpetas de Common Data Model.

Export the model.json file from a dataflow.

Puede usar este archivo JSON para migrar (o importar) el flujo de datos a otra área de trabajo o entorno.

Migrate a dataflow into another workspace or environment.

Para aprender exactamente lo que incluye el archivo de metadatos model.json, vaya al archivo de metadatos (model.json) para Common Data Model.

Archivos de datos

Además del archivo de metadatos, la carpeta de flujo de datos incluye otras subcarpetas. Un flujo de datos almacena los datos de cada entidad en una subcarpeta con el nombre de la entidad. Los datos de una entidad se pueden dividir en varias particiones de datos, almacenadas en formato CSV.

Cómo ver o acceder a carpetas de Common Data Model

Si usa flujos de datos que usan el almacenamiento proporcionado por el producto en el que se crearon, no tendrá acceso a esas carpetas directamente. En tales casos, la obtención de datos de los flujos de datos requiere el uso del conector de flujo de datos de Microsoft Power Platform disponible en la experiencia Obtener datos en los productos de servicio Power BI, Power Apps y Dynamics 35 Customer Insights, o en Power BI Desktop.

Connect to data for an analytical dataflow.

Para obtener información sobre cómo funcionan los flujos de datos y la integración interna de Data Lake Storage, vaya a Flujos de datos e integración de Azure Data Lake (versión preliminar).

Si su organización habilitó flujos de datos para aprovechar sus Data Lake Storage cuenta y se seleccionó como destino de carga para flujos de datos, todavía puede obtener datos del flujo de datos mediante el conector de flujo de datos de Power Platform como se mencionó anteriormente. Pero también puede acceder a la carpeta Common Data Model del flujo de datos directamente a través del lago, incluso fuera de las herramientas y servicios de Power Platform. El acceso al lago es posible a través de la Azure Portal, Explorador de Microsoft Azure Storage, o cualquier otro servicio o experiencia que admita Azure Data Lake Storage. Más información: Conectar Azure Data Lake Storage Gen2 para el almacenamiento de flujo de datos

Connect to external Data Lake Storage.

Pasos siguientes