你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用 Azure 门户新建无服务器 Apache Spark 池

Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、分析和分布数据,以及对数据建模。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、处理和分布数据以及为数据建模,更快地获取分析见解。

本快速入门介绍如何使用 Azure 门户在 Synapse 工作区中创建 Apache Spark 池。

重要

不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。

如果没有 Azure 订阅,请在开始之前创建一个免费帐户

先决条件

登录到 Azure 门户

登录到 Azure 门户

  1. 导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。 Screenshot of the Azure portal search bar with Synapse workspaces typed in.

  2. 从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

创建新的 Apache Spark 池

重要

适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3

  1. 在要在其中创建 Apache Spark 池的 Synapse 工作区中,选择“新建 Apache Spark 池”。 Screenshot from the Azure portal of a Synapse workspace with a red box around the command to create a new Apache Spark pool.

  2. 在“基本信息”选项卡中输入以下详细信息:

    设置 建议值 说明
    Apache Spark 池名称 有效的池名称,如 contosospark 这是 Apache Spark 池要使用的名称。
    节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本
    自动缩放 已禁用 此快速入门不需要自动缩放
    节点数 5 在此快速入门中使用小尺寸来限制成本

    Screenshot from the Azure portal of the Apache Spark pool create flow - basics tab.

    重要

    Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。

  3. 选择“下一步: 其他设置”并查看默认设置。 请不要修改任何默认设置。 Screenshot from the Azure portal that shows the 'Create Apache Spark pool' page with the 'Additional settings' tab selected.

  4. 选择“下一步: 标记”。 考虑使用 Azure 标记。 例如,用于确定资源创建者的“所有者”或“创建者”标记,以及确定此系统是生产环境还是开发环境等的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略Screenshot from the Azure portal of Apache Spark pool create flow - additional settings tab.

  5. 选择“查看 + 创建”。

  6. 根据前面输入的内容,确保详细信息正确,然后选择“创建”。 Screenshot from the Azure portal of Apache Spark pool create flow - review settings tab.

  7. 此时会启动资源预配流,指示其完成时间。 Screenshot from the Azure portal of that shows the 'Overview' page with a 'Your deployment is complete' message displayed.

  8. 预配完成后,导航回到工作区会显示新建的 Apache Spark 池对应的新条目。 Screenshot from the Azure portal of Apache Spark pool create flow - resource provisioning.

  9. 此时没有任何资源在运行,因此 Spark 不会产生费用,但你已创建有关所要创建的 Spark 实例的元数据。

清理资源

以下步骤会从工作区中删除 Apache Spark 池。

警告

删除 Apache Spark 池会从工作区中删除分析引擎。 将不再可以连接到该池,并且使用此 Apache Spark 池的所有查询、管道和笔记本都不再可以正常运行。

若要删除 Apache Spark 池,请执行以下步骤:

  1. 导航到工作区中的“Apache Spark 池”窗格。
  2. 选择要删除的 Apache Spark 池(在本例中为 contosospark)。
  3. 选择“删除”。 Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.
  4. 确认删除,然后选择“删除”按钮。 Screenshot from the Azure portal of the Confirmation dialog to delete the selected Apache Spark pool.
  5. 成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。