分析数据流的存储结构是什么?

分析数据流在Azure Data Lake Storage中存储数据和元数据。 数据流利用标准结构来存储和描述在 Lake 中创建的数据,该文件夹称为“通用数据模型”文件夹。 在本文中,你将详细了解数据流在后台使用的存储标准。

存储需要分析数据流的结构

如果 数据流是标准的,则数据存储在 Dataverse 中。 Dataverse 类似于数据库系统;它具有表、视图等的概念。 Dataverse 是标准数据流使用的结构化数据存储选项。

但是,当数据流分析时,数据存储在Azure Data Lake Storage中。 数据流的数据和元数据存储在通用数据模型文件夹中。 由于存储帐户中可能存储了多个数据流,因此引入了文件夹和子文件夹的层次结构来帮助组织数据。 根据创建数据流的产品,文件夹和子文件夹可能表示工作区 (或环境) ,然后是数据流的通用数据模型文件夹。 在 Common Data Model 文件夹中,存储数据流实体的架构和数据。 此结构遵循为通用数据模型定义的标准。

Analytical dataflow stores the data in the Common Data Model structure.

什么是通用数据模型存储结构?

通用数据模型 是一种元数据结构,旨在实现跨多个平台使用数据的符合性和一致性。 通用数据模型不是数据存储,它是存储和定义数据的方式。

通用数据模型文件夹定义实体的架构及其数据的存储方式。 在Azure Data Lake Storage中,数据在文件夹中进行组织。 文件夹可以表示工作区或环境。 在这些文件夹下,将为每个数据流创建子文件夹。

Workspace folder structure.

数据流文件夹中有哪些内容?

每个数据流文件夹包含每个实体的子文件夹和名为 的 model.json元数据文件。

What's in a dataflow folder?

元数据文件:model.json

该文件 model.json 是数据流的元数据定义。 这是包含所有数据流元数据的一个文件。 它包括实体列表、列及其数据类型在每个实体中、实体之间的关系等。 即使无权访问 Common Data Model 文件夹结构,也可以轻松地从数据流导出此文件。

Export the model.json file from a dataflow.

可以使用此 JSON 文件将 (或) 数据流导入到另一个工作区或环境中。

Migrate a dataflow into another workspace or environment.

若要确切了解 model.json 元数据文件包含的内容,请转到 Common Data Model 的元数据文件 (model.json)

数据文件

除了元数据文件外,数据流文件夹还包括其他子文件夹。 数据流将每个实体的数据存储在具有实体名称的子文件夹中。 实体的数据可以拆分为多个数据分区,以 CSV 格式存储。

如何查看或访问通用数据模型文件夹

如果使用的是使用它们创建的产品提供的存储的数据流,则你无权直接访问这些文件夹。 在这种情况下,从数据流获取数据需要使用 Microsoft Power Platform 数据流连接器,才能在 Power BI 服务、Power Apps 和 Dynamics 35 Customer Insights 产品或Power BI Desktop中获取数据体验。

Connect to data for an analytical dataflow.

若要了解数据流和内部Data Lake Storage集成的工作原理,请转到数据流和 Azure Data Lake 集成 (预览版)

如果组织启用了数据流来利用其Data Lake Storage帐户,并且已选择作为数据流的负载目标,则仍可以使用上述 Power Platform 数据流连接器从数据流中获取数据。 但你也可以直接通过 Lake 访问数据流的 Common Data Model 文件夹,即使在 Power Platform 工具和服务之外也是如此。 可以通过Azure 门户、Microsoft Azure 存储资源管理器或任何其他支持Azure Data Lake Storage的服务或体验访问湖。 详细信息:数据流存储连接 Azure Data Lake Storage Gen2

Connect to external Data Lake Storage.

后续步骤