群集

Azure Databricks 群集是一组计算资源和配置,在其中可以运行数据工程、数据科学和数据分析工作负荷,例如生产 ETL 管道、流分析、即席分析和机器学习。

可将这些工作负荷作为笔记本中的一组命令运行,或者作为自动化作业运行。 Azure Databricks 会区分通用群集和作业群集 。 借助通用群集,可通过交互式笔记本以协作的方式分析数据。 借助作业群集,可运行快速可靠的自动化作业。

  • 可使用 UI、CLI 或 REST API 创建通用群集。 可手动终止和重启通用群集。 多个用户可以共享此类群集,以协作的方式执行交互式分析。
  • 当你在新的作业群集上运行作业时,Azure Databricks 作业计划程序将创建一个作业群集,并在作业完成时终止该群集 。 无法重启作业群集。

此部分介绍如何通过 UI 来使用群集。 有关其他方法,请参阅群集 CLI群集 API 2.0

此外,本部分将重点放在通用群集而不是作业群集上,不过,所述的许多配置和管理工具对于这两种群集类型同样适用。 若要详细了解如何创建作业群集,请参阅作业

重要

Azure Databricks 保留最近 30 天内终止的最多 200 个通用群集的群集配置信息,以及作业计划程序最近终止的最多 30 个作业群集的群集配置信息。 若要在通用群集已终止超过 30 天后仍保留通用群集配置,管理员可将群集固定到群集列表。

本部分内容: