分析数据流的存储结构是什么?
分析数据流在Azure Data Lake Storage中存储数据和元数据。 数据流利用标准结构来存储和描述在 Lake 中创建的数据,该文件夹称为“通用数据模型”文件夹。 在本文中,你将详细了解数据流在后台使用的存储标准。
存储需要分析数据流的结构
如果 数据流是标准的,则数据存储在 Dataverse 中。 Dataverse 类似于数据库系统;它具有表、视图等的概念。 Dataverse 是标准数据流使用的结构化数据存储选项。
但是,当数据流分析时,数据存储在Azure Data Lake Storage中。 数据流的数据和元数据存储在通用数据模型文件夹中。 由于存储帐户中可能存储了多个数据流,因此引入了文件夹和子文件夹的层次结构来帮助组织数据。 根据创建数据流的产品,文件夹和子文件夹可能表示工作区 (或环境) ,然后是数据流的通用数据模型文件夹。 在 Common Data Model 文件夹中,存储数据流实体的架构和数据。 此结构遵循为通用数据模型定义的标准。
什么是通用数据模型存储结构?
通用数据模型 是一种元数据结构,旨在实现跨多个平台使用数据的符合性和一致性。 通用数据模型不是数据存储,它是存储和定义数据的方式。
通用数据模型文件夹定义实体的架构及其数据的存储方式。 在Azure Data Lake Storage中,数据在文件夹中进行组织。 文件夹可以表示工作区或环境。 在这些文件夹下,将为每个数据流创建子文件夹。
数据流文件夹中有哪些内容?
每个数据流文件夹包含每个实体的子文件夹和名为 的 model.json
元数据文件。
元数据文件:model.json
该文件 model.json
是数据流的元数据定义。 这是包含所有数据流元数据的一个文件。 它包括实体列表、列及其数据类型在每个实体中、实体之间的关系等。 即使无权访问 Common Data Model 文件夹结构,也可以轻松地从数据流导出此文件。
可以使用此 JSON 文件将 (或) 数据流导入到另一个工作区或环境中。
若要确切了解 model.json 元数据文件包含的内容,请转到 Common Data Model 的元数据文件 (model.json) 。
数据文件
除了元数据文件外,数据流文件夹还包括其他子文件夹。 数据流将每个实体的数据存储在具有实体名称的子文件夹中。 实体的数据可以拆分为多个数据分区,以 CSV 格式存储。
如何查看或访问通用数据模型文件夹
如果使用的是使用它们创建的产品提供的存储的数据流,则你无权直接访问这些文件夹。 在这种情况下,从数据流获取数据需要使用 Microsoft Power Platform 数据流连接器,才能在 Power BI 服务、Power Apps 和 Dynamics 35 Customer Insights 产品或Power BI Desktop中获取数据体验。
若要了解数据流和内部Data Lake Storage集成的工作原理,请转到数据流和 Azure Data Lake 集成 (预览版) 。
如果组织启用了数据流来利用其Data Lake Storage帐户,并且已选择作为数据流的负载目标,则仍可以使用上述 Power Platform 数据流连接器从数据流中获取数据。 但你也可以直接通过 Lake 访问数据流的 Common Data Model 文件夹,即使在 Power Platform 工具和服务之外也是如此。 可以通过Azure 门户、Microsoft Azure 存储资源管理器或任何其他支持Azure Data Lake Storage的服务或体验访问湖。 详细信息:数据流存储连接 Azure Data Lake Storage Gen2