使用 Azure Databricks 作业创建第一个工作流

项目
04/22/2024

本文演示编排读取和处理示例数据集等任务的 Azure Databricks 作业。在本快速入门中，请执行以下操作：

创建新笔记本并添加代码，以检索包含按年份排列的常用婴儿姓名的示例数据集。
将示例数据集保存到 Unity Catalog。
创建新的笔记本并添加代码，以从 Unity Catalog 读取数据集，按年份对其进行筛选，并显示结果。
使用笔记本创建新作业并配置两个任务。
运行作业并查看结果。

要求

如果工作区启用了 Unity Catalog，并且启用了无服务器工作流，则默认情况下作业会在无服务器计算上运行。你不需群集创建权限即可使用无服务器计算来运行作业。

否则，你必须拥有创建作业计算的群集创建权限或对通用计算资源的权限。

Unity Catalog 中必须有一个卷。本文在名为 main 的目录中使用 default 架构中的 my-volume 卷。此外，你必须在 Unity Catalog 中具有以下权限：

READ VOLUME 和 WRITE VOLUME 或 ALL PRIVILEGES（对于 my-volume 卷）。
USE SCHEMA 或 ALL PRIVILEGES（对于 default 架构）。
USE CATALOG 或 ALL PRIVILEGES（对于 main 目录）。

若要设置这些权限，请联系 Databricks 管理员或参阅 Unity Catalog 特权和安全对象。

创建笔记本

检索和保存数据

要创建笔记本以检索示例数据集并将其保存到 Unity Catalog，请执行以下操作：

转到 Azure Databricks 登陆页，单击边栏中的“新建”，然后选择“笔记本”。 Databricks 会在默认文件夹中创建一个新的空白笔记本并将其打开。默认语言是你最近使用的语言，笔记本会自动附加到你最近使用的计算资源。
如果需要，可将默认语言更改为 Python。

复制以下 Python 代码并将其粘贴到笔记本的第一个单元格中。

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

读取和显示经过筛选的数据

若要创建一个笔记本以读取和显示要筛选的数据，请执行以下操作：

转到 Azure Databricks 登陆页，单击边栏中的“新建”，然后选择“笔记本”。 Databricks 会在默认文件夹中创建一个新的空白笔记本并将其打开。默认语言是你最近使用的语言，笔记本会自动附加到你最近使用的计算资源。
如果需要，可将默认语言更改为 Python。

复制以下 Python 代码并将其粘贴到笔记本的第一个单元格中。

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))