Integração do Git com pastas Git do Databricks

As pastas Git do Databricks são um cliente Git visual e uma API no Azure Databricks. Ele dá suporte para operações comuns do Git, como clonar um repositório, confirmar e enviar por push, efetuar pull, gerenciamento de ramificações e comparação visual de diferenças durante a confirmação.

Nas pastas Git, você pode desenvolver código em notebooks ou outros arquivos e seguir as melhores práticas de desenvolvimento de código de engenharia e ciência de dados usando o Git para controle de versão, colaboração e CI/CD.

Importante

O Databricks substituiu o recurso "Repos" pela funcionalidade de pasta Git integrada nos workspaces do Databricks. Para obter mais detalhes sobre essa alteração, leia O que aconteceu com o Databricks Repos?

Esse recurso está em Visualização Pública em todas as regiões.

Observação

As pastas Git (Repos) são projetadas principalmente para fluxos de trabalho de criação e colaboração.

Para obter informações sobre como migrar de uma integração herdada do Git, consulte Migrar para pastas Git (anteriormente Repos) do Git herdado.

O que você pode fazer com as pastas Git do Databricks?

As pastas Git do Databricks fornecem controle do código-fonte para dados e projetos de IA integrando-se aos provedores Git.

Nas pastas Git do Databricks, você pode usar a funcionalidade do Git para:

  • Clonar, enviar por push e efetuar pull de um repositório Git remoto.
  • Crie e gerencie ramificações para o trabalho de desenvolvimento, incluindo mesclagem, rebasing e resolução de conflitos.
  • Crie notebooks (incluindo notebooks IPYNB) e edite estes e outros arquivos.
  • Compare visualmente as diferenças ao confirmar e resolva conflitos de mesclagem.

Para obter instruções passo a passo, consulte Executar operações do Git nas pastas Git do Databricks (Repos).

Observação

As pastas Git do Databricks também fornecem uma API que você pode integrar ao seu pipeline de CI/CD. Por exemplo, você pode atualizar um repositório do Databricks de forma programática para que ele sempre tenha a versão mais recente do código. Para obter informações sobre as melhores práticas para o desenvolvimento de código usando pastas Git do Databricks, confira Técnicas de CI/CD com Git e pastas Git do Databricks (Repos).

Para obter mais informações sobre os tipos de notebooks com suporte no Azure Databricks, confira Exportar e importar notebooks do Databricks.

Provedores Git com suporte

As pastas Git do Databricks são respaldadas por um repositório Git integrado. O repositório pode ser hospedado por qualquer um dos provedores Git corporativos e de nuvem listados na seção a seguir.

Observação

O que é um “provedor Git”?

Um “provedor Git” é o serviço específico (nomeado) que hospeda um modelo de controle do código-fonte baseado no Git. As plataformas de controle do código-fonte baseadas em Git são hospedadas de duas maneiras: como um serviço de nuvem hospedado pela empresa em desenvolvimento ou como um serviço local instalado e gerenciado por sua própria empresa em seu próprio hardware. Muitos provedores Git, como GitHub, Microsoft, GitLab e Atlassian, fornecem serviços Git de SaaS baseados em nuvem e locais (às vezes chamados de “autogerenciados”).

Ao escolher seu provedor Git durante a configuração, você deve estar ciente das diferenças entre a nuvem (SaaS) e os provedores Git locais. Em geral, as soluções locais são hospedadas por trás de uma VPN da empresa e podem não estar acessíveis pela Internet. Normalmente, os provedores Git locais têm um nome que termina com “Server” ou “Self-Managed”, mas se você não tiver certeza, entre em contato com os administradores da empresa ou examine a documentação do provedor Git.

Se o provedor Git for baseado em nuvem e não estiver listado como um provedor com suporte, selecionar "GitHub" como seu provedor pode funcionar, mas isso não é garantido.

Observação

Se você estiver usando “GitHub” como um provedor e ainda não tiver certeza se está usando a nuvem ou a versão local, confira Sobre o GitHub Enterprise Server nos documentos do GitHub.

Provedores Git de nuvem compatíveis com Databricks

  • GitHub, GitHub AE e GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab e GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Provedores Git locais compatíveis com Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server e Data Center
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server: um administrador de workspace deve explicitamente incluir na lista de permitidos os prefixos de domínio de URL para o Microsoft Azure DevOps Server se a URL não corresponder a dev.azure.com/* ou visualstudio.com/*. Para obter mais detalhes, consulte Restringir o uso a URLs em uma lista de permitidos

Se você estiver integrando um repositório Git local que não esteja acessível pela Internet, um proxy para solicitações de autenticação Git também deverá ser instalado na VPN da sua empresa. Para obter mais detalhes, confira Configurar a conectividade Git privada para as pastas Git do Databricks (Repos).

Para saber como usar tokens de acesso com seu provedor Git, consulte Configurar credenciais do Git e conectar um repositório remoto ao Azure Databricks.

Recursos para integração com o Git

Use a integração da CLI 2.0 do Databricks para Git com o Azure Databricks:

Leia os seguintes documentos de referência:

Próximas etapas