Azure Databricks 体系结构概述

本文提供 Azure Databricks 体系结构的简要概述,包括其与 Azure 相结合的企业体系结构。

控制平面和计算平面

Azure Databricks 设计用来实现安全的跨职能团队协作,同时将大量的后端服务留给 Azure Databricks 进行管理,因此你可以专注于数据科学、数据分析和数据工程任务。

Azure Databricks 在控制平面和计算平面上运行。

  • 控制平面包括 Azure Databricks 在 Azure Databricks 帐户中管理的后端服务。 笔记本命令和许多其他工作区配置存储在控制平面中,并静态加密。

  • 计算平面是处理数据的位置。

    • 对于大多数 Azure Databricks 计算,计算资源位于 Azure 订阅中,称为经典计算平面。 这是指 Azure 订阅及其资源中的网络。 Azure Databricks 为笔记本、作业和 Pro 和经典 Databricks SQL 仓库使用经典计算平面。
    • 对于无服务器 SQL 仓库模型服务,无服务器计算资源在 Azure Databricks 帐户无服务器计算平面中运行。 有关更多体系结构信息,请参阅无服务器计算

    注意

    以前,Azure Databricks 将计算平面称为数据平面。

使用 Azure Databricks 连接器将群集连接到 Azure 订阅之外的外部数据源,以引入数据或进行存储。 还可从外部流式处理数据源引入数据,例如事件数据、流式处理数据、IoT 数据等。 请参阅连接到数据源

若要为经典计算平面配置网络,请参阅经典计算平面网络

数据湖存储在 Azure 订阅和自己的数据源中,以便保持数据的控制和所有权。

作业结果驻留在 Azure 订阅中的存储中。 交互式笔记本结果与控件平面(要在 UI 中显示的部分结果)和 Azure 存储组合存储。 如果希望仅将交互式笔记本结果存储在 Azure 订阅中,则可以为交互式笔记本结果配置存储位置。 请参阅配置交互式笔记本结果的存储位置。 请注意,有关结果的某些元数据(如图表列名)继续存储在控制平面中。

高级体系结构

尽管体系结构可能因自定义配置而异(例如,当已将 Azure Databricks 工作区部署到自己的虚拟网络(也称为 VNet 注入)时),但以下体系结构图示表示了 Azure Databricks 的最常见结构和数据流。

下图描述了整体体系结构。 有关用于无服务器 SQL 仓库的无服务器计算平面的详细信息,请参阅无服务器计算

Diagram: Databricks architecture on Azure