快速入门:运行查询并将其可视化

本快速入门介绍如何查询人员表,以查找名为 Mary 的按出生年份分组的女性人数,并直观显示结果。

该表包含 idfirstNamemiddleNamelastNamegenderbirthDatessnsalary 列。

本文介绍如何使用 Databricks SQL UI 和 BI 工具(Power BI 和 Tableau Online)来执行相同的查询。

要求

在完成以下部分中的步骤之前,你的 Databricks SQL 管理员必须完成 Databricks SQL 管理员快速入门

使用 Databricks SQL UI 查询表并创建可视化效果

使用边栏

可使用边栏来访问所有 Azure Databricks 资产。 边栏的内容取决于所选的角色:数据科学与工程、机器学习或 SQL。

  • 默认情况下,侧边处于折叠状态,只有图标可见。 将光标移到边栏上方可展开到完整视图。

  • 若要更改角色,请单击 Databricks 徽标下方的图标Databricks logo,并选择一个角色。

    change persona

  • 若要固定某个角色,使其在你下次登录时显示,请单击该角色旁边的pin persona。 再次单击它可以删除固定。

  • 使用边栏底部的“菜单选项”将边栏模式设置为“自动”(默认行为)、“展开”或“折叠” 。

切换到另一工作区

如果在同一帐户中有对多个工作区的访问权限,则可以快速切换。

  1. 在 Azure Databricks 工作区的左下角,单击Account Icon
  2. 在“工作区”下,选择要切换到的工作区。

步骤 1:登录到 Databricks SQL

登录 Databricks SQL 时,登陆页面如下所示:

User landing page

如果显示了 Databricks 数据科学和工程或 Databricks 机器学习环境,请&切换到“Databricks SQL”。

步骤 2:查询人员表

管理员快速入门:设置用户以查询表中,管理员创建了一个名为 people10 的表。 在本部分中,将对此表运行查询,以获得名为 Mary 的所有人员的生日和出生年份。

  1. 单击边栏中的Create Icon“创建”,然后选择“查询”。

    此时将显示 SQL 编辑器。

  2. 在“新建查询”下面的框中,单击向下箭头图标图标,然后选择“入门级仓库”。

    第一次创建查询时,可用 SQL 仓库的列表按字母顺序显示。 下次创建查询时,将选择上次使用的仓库。

  3. 在仓库下面的框中,单击向下箭头图标图标;如果未选中,请选择“默认”数据库。

    Default database

  4. 粘贴查询名为 Mary 的女性人数的 SELECT 语句:

     SELECT year(birthDate) as birthYear, count(*) AS total
     FROM default.people10m
     WHERE firstName = 'Mary' AND gender = 'F'
     GROUP BY birthYear
     ORDER BY birthYear
    
  5. 按 Ctrl/Cmd + Enter 或单击“执行”按钮 。

    “限制 1000”复选框已默认选中,以确保查询最多返回 1000 行。 如果需要更多行,可取消选中此复选框,并在查询中指定 LIMIT 子句。 查询结果将显示在“表”选项卡中。

    Query result

步骤 3:创建可视化效果

  1. 单击“+添加可视化效果”选项卡。

    这会显示可视化效果编辑器。

    Visualization editor

  2. 在“X 列”下拉列表中,选择“出生年” 。

  3. 在“Y 列”下拉列表中,选择“总计” 。

  4. 单击“X 轴”选项卡。

  5. 在“名称”字段中,输入 Birth Year

  6. 单击“Y 轴”选项卡。

  7. 在“名称”字段中,输入 Number of Marys by Birth Year

  8. 单击“保存” 。

    保存的图表显示在 SQL 编辑器中。

    Marys SQLA chart

步骤 4:创建仪表板

  1. 单击边栏中的Create Icon“创建”,然后选择“仪表板”。

  2. 输入 People

  3. 单击“保存” 。

  4. 单击右下角的“添加小组件”按钮。

  5. 选择“Mary”。

  6. 单击“添加到仪表板”。

  7. 单击“完成编辑”。

    Complete dashboard

后续步骤

  • 通过执行以下操作之一,查看一些示例仪表板,从这些仪表板中,你可以获得丰富的可视化效果和可用的布局:
    • 单击“仪表板”页面底部的“查看库” 。
    • 转到 https://<databricks-instance>/sql/dashboards/samples,将 <databricks-instance> 替换为 Azure Databricks https://<databricks-instance>/sql/dashboards/samples(例如 adb-1234567890123456.7.azuredatabricks.net)。
  • 使用常用 BI 工具查询表并创建可视化效果。

使用连接到 Databricks SQL 的 BI 工具查询表并创建可视化效果

本部分介绍如何收集 Databricks SQL 信息,将 Power BI Desktop 和 Tableau Online 连接到 Databricks SQL,以及在每个 BI 工具中查询人员表和直观呈现数据。

本节内容:

Databricks SQL

本部分介绍如何收集仓库连接信息并生成用于向 Databricks SQL 进行身份验证的令牌。

步骤 1:获取 SQL 仓库连接详细信息

  1. 登录到 Databricks SQL

  2. 单击边栏中的 终结点图标 SQL 仓库。

  3. 在“仓库”列表中的筛选器框中键入 Starter

  4. 单击“入门级仓库”链接。

  5. 单击“连接详细信息”选项卡。

    Connection details

  6. 单击Copy Icon以复制“服务器主机名”和“HTTP 路径”。

步骤 2:获取个人访问令牌

可使用个人访问令牌向 Databricks SQL 进行身份验证。

  1. 单击边栏底部的User Settings Icon“设置”,然后选择“用户设置”。
  2. 单击“个人访问令牌”选项卡。
  3. 单击“+ 生成新令牌”。
  4. 可以选择输入注释并修改令牌生存期。
  5. 单击“生成” 。
  6. 单击Copy Icon以复制令牌,然后单击“确定”。

Power BI

步骤 1:配置从 Power BI 到 Databricks SQL 的连接

  1. 选择“获取数据”>“更多…”>“Azure”,然后选择“Azure Databricks”连接器。>

    Databricks connector in Get Data list

  2. 单击“连接” 。

  3. 输入在步骤 1:获取 SQL 仓库连接详细信息中复制的“服务器主机名”和“HTTP 路径”。

    Power BI data source

  4. 单击 “确定”

  5. 在身份验证提示符下,选择“个人访问令牌”选项卡。输入你在步骤 2:获取个人访问令牌中复制的个人访问令牌。

  6. 单击“连接” 。

    如果 SQL 仓库未运行,它将启动,但可能需要几分钟才能可用。

  7. 在 Power BI 导航器中,选择 default.people10m 表。

  8. 单击“加载”。

步骤 2:对数据进行定型

返回名字为 Mary 的女性的记录,并计算每年的 Mary 数量。

  1. 删除除 firstNamegenderbirthDate 之外的所有列。
  2. 使用 firstName = Marygender = F 筛选数据。
  3. birthDate 的类型更改为 Date 并删除除年份以外的所有日期组件。
  4. 按年份分组,以计算每年的 Mary 数量。

Marys Power BI table

步骤 3:直观呈现数据

Marys Power BI chart

Tableau Online

步骤 1:配置从 Tableau Online 到 Databricks SQL 的连接

  1. 在 Tableau Online 中,打开工作簿或新建工作簿。

  2. 选择“数据”>“新建数据源”。

    Tableau Online data source

  3. 在“连接到数据”对话框中,选择“连接器”>“Databricks”。

    Tableau Online Databricks

  4. 在“Databricks 连接”对话框中,输入在步骤 1:获取 SQL 仓库连接详细信息中复制的“服务器主机名”和“HTTP 路径”。

    Tableau data source

  5. 使用 token 作为用户名并使用token中的令牌作为密码进行身份验证。

  6. 单击“登录”。

    如果 SQL 仓库未运行,它将启动,但可能需要几分钟才能可用。

  7. 在“架构”字段中,输入 default。 按 Enter

  8. 在“选择架构”下拉列表中,选择

  9. 在“表”字段中,输入 people10m。 按 Enter

  10. people10 表拖动至画布。

步骤 2:对数据进行定型

返回名字为 Mary 的女性的记录,并计算每年的 Mary 数量。

  1. 删除除 firstNamegenderbirthDate 之外的所有列。
  2. 使用 firstName = Marygender = F 筛选数据。
  3. birthDate 的类型更改为 Date 并删除除年份以外的所有日期组件。
  4. 按年份分组,以计算每年的 Mary 数量。

Marys Tableau table

步骤 3:直观呈现数据

以条形图的形式显示:

Marys Tableau chart