你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:利用数据库模板创建新的湖数据库

本快速入门提供了一个端到端场景,可让你了解如何应用数据库模板来创建湖数据库、使数据与新模型保持一致,以及使用集成的体验来分析数据。

先决条件

  • 从库中浏览湖数据库模板至少需要具有 Synapse 用户角色权限。
  • 创建湖数据库需要对 Synapse 工作区拥有 Synapse 管理员或 Synapse 参与者权限。
  • 使用“从数据湖创建表”选项时,你需要拥有对数据湖的“存储 Blob 数据参与者”权限。

从数据库模板创建湖数据库

使用新的数据库模板功能创建一个湖数据库,可用于为数据库配置数据模型。

对于我们的场景,我们将使用 Retail 数据库模板并选择以下实体:

  • RetailProduct - 产品是可提供给市场、可能满足潜在客户需求的任何事物。 这种产品是与其关联的所有物理属性、心理属性、符号属性和服务属性的总和。
  • 事务 - 可执行工作或客户活动的最低级别。 一项事务由一个或多个离散事件组成。
  • TransactionLineItem - 事务的组成部分,按产品和数量细分,每个明细项目一个。
  • 参与方 - 参与方是与企业有利益关系的个人、组织、法律实体、社会组织或业务单位。
  • 客户 - 客户是拥有或已购买产品或服务的个人或法律实体。
  • 渠道 - 渠道是销售和/或分发产品或服务的一种方式。 要查找这些实体,最简单的方法是使用包含表的不同业务领域上方的搜索框。

Database Template example

配置湖数据库

创建数据库后,请确保将存储帐户和文件路径设置为要存储数据的位置。 该路径默认为 Synapse Analytics 中的主存储帐户,但可根据你的需求进行更改。

Lake database example

保存布局,并使其在 Synapse 内可用。发布所有更改。 此步骤将完成湖数据库的设置,并使其可用于 Synapse Analytics 内外的所有组件。

向湖数据库引入数据

要将数据引入湖数据库,可以执行管道与无代码数据流映射,其中有一个 Workspace DB 连接器,可用于将数据直接加载到数据库表中。 你也可以使用交互式 Spark 笔记本将数据引入湖数据库表中:

%%sql
INSERT INTO `retail_mil`.`customer` VALUES (1,'2021-02-18',1022,557,101,'Tailspin Toys (Head Office)','Waldemar Fisar',90410,466);

查询数据

湖数据库创建完成后,有不同的方法可以查询数据。 目前,我们支持 Synapse 中的 SQL On-demand,它能自动理解新创建的湖数据库格式,并通过它公开数据。

SELECT TOP (100) [ProductId]
,[ProductName]
,[ProductDescription]
,[ProductInternalName]
,[ItemSku]
,[PrimaryBrandId]
FROM [Retail_mil].[dbo].[RetailProduct]

在 Synapse 中访问数据的另一种方式是打开一个新的 Spark 笔记本,并在那里使用集成的体验:

df = spark.sql("SELECT * FROM `Retail_mil`.`RetailProduct`")
df.show(10)

训练机器学习模型

你可以使用湖数据库来训练你的机器学习模型并对数据进行评分。 有关详细信息,请参阅训练机器学习模型

后续步骤

使用以下链接继续探索数据库设计器功能。