Integração do Git com pastas Databricks Git

As pastas Git do Databricks são um cliente Git visual e uma API no Azure Databricks. Ele suporta operações comuns do Git, como clonagem de um repositório, confirmação e push, pulling, gerenciamento de ramificações e comparação visual de diffs ao confirmar.

Dentro das pastas do Git, você pode desenvolver código em blocos de anotações ou outros arquivos e seguir as melhores práticas de desenvolvimento de código de engenharia e ciência de dados usando o Git para controle de versão, colaboração e CI/CD.

Importante

O Databricks substituiu o recurso "Repos" pela funcionalidade de pasta Git integrada nos espaços de trabalho do Databricks. Para obter mais detalhes sobre essa alteração, leia O que aconteceu com o Databricks Repos?

Esta funcionalidade está na Pré-visualização Pública em todas as regiões.

Nota

As pastas Git (Repos) são projetadas principalmente para fluxos de trabalho de criação e colaboração.

Para obter informações sobre como migrar de uma integração Git herdada, consulte Migrar para pastas Git (anteriormente Repos) do Git herdado.

O que você pode fazer com as pastas Databricks Git?

As pastas Databricks Git fornecem controle de origem para dados e projetos de IA integrando-se com provedores Git.

Nas pastas Git do Databricks, você pode usar a funcionalidade do Git para:

  • Clone, push e pull de um repositório Git remoto.
  • Crie e gerencie ramificações para o trabalho de desenvolvimento, incluindo fusão, refundação e resolução de conflitos.
  • Crie blocos de notas (incluindo blocos de notas IPYNB) e edite-os e outros ficheiros.
  • Compare visualmente as diferenças ao confirmar e resolver conflitos de mesclagem.

Para obter instruções passo a passo, consulte Executar operações Git em pastas Git Databricks (Repos).

Nota

As pastas Databricks Git também têm uma API que você pode integrar com seu pipeline de CI/CD. Por exemplo, você pode atualizar programaticamente um repositório Databricks para que ele sempre tenha a versão mais recente do código. Para obter informações sobre práticas recomendadas para desenvolvimento de código usando pastas Git Databricks, consulte Técnicas de CI/CD com pastas Git e Databricks Git (Repos).

Para obter informações sobre os tipos de blocos de notas suportados no Azure Databricks, consulte Exportar e importar blocos de notas Databricks.

Provedores Git suportados

As pastas Databricks Git são apoiadas por um repositório Git integrado. O repositório pode ser hospedado por qualquer um dos provedores de Git corporativos e de nuvem listados na seção a seguir.

Nota

O que é um "provedor Git"?

Um "provedor Git" é o serviço específico (nomeado) que hospeda um modelo de controle de origem baseado no Git. As plataformas de controle de origem baseadas em Git são hospedadas de duas maneiras: como um serviço de nuvem hospedado pela empresa em desenvolvimento ou como um serviço local instalado e gerenciado por sua própria empresa em seu próprio hardware. Muitos provedores de Git, como GitHub, Microsoft, GitLab e Atlassian, fornecem serviços Git baseados em nuvem e locais (às vezes chamados de "autogerenciados").

Ao escolher seu provedor Git durante a configuração, você deve estar ciente das diferenças entre os provedores de nuvem (SaaS) e Git locais. As soluções locais são normalmente hospedadas atrás de uma VPN da empresa e podem não ser acessíveis pela Internet. Normalmente, os provedores Git locais têm um nome que termina em "Servidor" ou "Autogerenciado", mas se você não tiver certeza, entre em contato com os administradores da sua empresa ou revise a documentação do provedor do Git.

Se o seu provedor Git for baseado na nuvem e não estiver listado como um provedor suportado, selecionar "GitHub" como seu provedor pode funcionar, mas não é garantido.

Nota

Se você estiver usando o "GitHub" como um provedor e ainda não tiver certeza se estiver usando a versão na nuvem ou local, consulte Sobre o GitHub Enterprise Server nos documentos do GitHub.

Provedores de Cloud Git suportados pelo Databricks

  • GitHub, GitHub AE e GitHub Enterprise Cloud
  • Nuvem BitBucket da Atlassian
  • GitLab e GitLab EE
  • DevOps do Microsoft Azure (repositórios do Azure)

Provedores Git locais suportados pelo Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server e Data Center
  • GitLab Auto-Gerenciado
  • Servidor de DevOps do Microsoft Azure: um administrador de espaço de trabalho deve permitir explicitamente a lista dos prefixos de domínio de URL para seu Servidor de DevOps do Microsoft Azure se a URL não corresponder ou dev.azure.com/*visualstudio.com/*. Para obter mais detalhes, consulte Restringir o uso a URLs em uma lista de permissões

Se você estiver integrando um repositório Git local que não é acessível pela Internet, um proxy para solicitações de autenticação Git também deve ser instalado dentro da VPN da sua empresa. Para obter mais detalhes, consulte Configurar conectividade Git privada para pastas Git Databricks (Repos).

Para saber como usar tokens de acesso com seu provedor Git, consulte Configurar credenciais do Git & conectar um repositório remoto ao Azure Databricks.

Recursos para integração com Git

Use a CLI 2.0 do Databricks para integração do Git com o Azure Databricks:

Leia os seguintes documentos de referência:

Próximos passos