Git 与 Databricks 存储库集成

注意

对 Databricks Repos 中的任意文件的支持现已发布公开预览版。 有关详细信息,请参阅在 Azure Databricks 存储库中使用非笔记本文件导入 Python 和 R 模块

为了支持数据科学和工程代码开发的最佳做法,Databricks Repos 提供了与 Git 提供程序的存储库级别集成。 可以在 Azure Databricks 笔记本中开发代码,并将其与远程 Git 存储库同步。 通过 Databricks Repos 可以使用 Git 功能,如克隆远程存储库、管理分支、推送和拉取更改以及在提交时直观比较差异。

Databricks Repos 还提供一个可与 CI/CD 管道集成的 API。 例如,可以通过编程方式更新 Databricks 存储库,使其始终具有最新的代码版本。

Databricks Repos 可提供安全功能,如用于控制对 Git 存储库的访问的允许列表,以及对源代码中明文机密的检测

启用审核日志记录后,与 Databricks 存储库交互时将记录审核事件。 例如,当你创建、更新或删除 Databricks 存储库、列出与工作区关联的所有 Databricks 存储库以及同步 Databricks 存储库和 Git 远程之间的更改时,会记录审计事件。

有关使用 Databricks 存储库进行代码开发的最佳做法的更多信息,请参阅 包含 Databricks 存储库和 Git 集成的 CI/CD 工作流

要求

Azure Databricks 支持以下 Git 提供程序:

  • GitHub
  • Bitbucket Cloud 和 Bitbucket Server
  • GitLab
  • Azure DevOps(在 Azure 中国区域不可用)
  • AWS CodeCommit
  • GitHub AE

Databricks Repos 支持 Bitbucket Server、GitHub Enterprise Server 或 GitLab 自托管订阅实例集成(如果服务器可访问 Internet)。

若要与无法访问 Internet 的专用 Git 服务器实例集成,请与 Databricks 代表联系。

Databricks Runtime 8.4 及更高版本中提供了对 Databricks Repos 中的任意文件的支持。