Share via


Configurar pastas Git do Databricks (Repos)

Saiba como configurar as pastas Git (anteriormente Repos) do Databricks para controle de versão. Depois de configurar as pastas Git no seu Databricks, você pode executar operações comuns do Git, como clonagem, fazer check-out, fazer commit, efetuar push, efetuar pull e gerenciamento de ramificação nelas na interface do usuário do Databricks. Você também pode ver diferenças para suas alterações conforme desenvolve com notebooks e arquivos no Databricks.

Definir configurações de usuário

As pastas Git do Databricks usa um token de acesso pessoal (PAT) ou uma credencial equivalente para autenticar com seu provedor Git para realizar operações como clonar, efetuar push, efetuar pull, etc. Para usar as pastas Git, você deve primeiro adicionar seu PAT do Git e nome de usuário do provedor do Git ao Databricks. Consulte Configurar credenciais do Git e conectar um repositório remoto ao Azure Databricks.

É possível clonar repositórios remotos públicos sem credenciais do Git (um token de acesso pessoal e um nome de usuário). Para modificar um repositório remoto público, ou clonar ou modificar um repositório remoto privado, você deve ter um nome de usuário do provedor Git e PAT com permissões Gravar (ou superior) no repositório remoto.

As pastas Git são habilitadas por padrão. Para obter mais detalhes sobre como habilitar ou desabilitar o suporte à pasta Git, consulte Habilitar ou desabilitar o recurso da pasta Git do Databricks.

Adicionar ou editar credenciais do Git no Databricks

Importante

As pastas Git do Databricks tem suporte para apenas uma credencial Git por usuário, por workspace.

  1. Selecione a seta para baixo ao lado do nome da conta na parte superior direita da tela e selecione Configurações.

  2. Selecione a guia Contas vinculadas.

  3. Se você estiver adicionando credenciais pela primeira vez, siga as instruções na tela.

    Se você tiver inserido credenciais anteriormente, clique em Configuração>Editar e vá para a etapa seguinte.

  4. Na lista suspensa Provedor do Git selecione o nome do provedor.

  5. Insira seu nome de usuário ou email do Git.

  6. No campo Token, adicione um token de acesso pessoal (PAT) ou outras credenciais do seu provedor Git. Para obter detalhes, confira Configurar credenciais do Git e conectar um repositório remoto ao Azure Databricks

    Importante

    O Databricks recomenda que você defina uma data de validade para todos os tokens de acesso pessoal.

    Para o Azure DevOps, se você não inserir uma senha de token ou aplicativo, a integração do Git usará o token do Microsoft Entra ID (antigo Azure Active Directory) por padrão. Se você inserir um token de acesso pessoal do Azure DevOps, a integração com o Git o usará em vez disso. Consulte Conectar-se a um repositório do Azure DevOps usando um token.

    Observação

    Após a atualização da sua senha do Azure, faça uma nova autenticação com o Azure Databricks se precisar que a nova autenticação funcione imediatamente. Se você não se autenticar novamente, a conexão do Azure DevOps poderá não ser validada por até 24 horas.

    Se a sua organização tiver o SSO do SAML habilitado no GitHub, autorize o seu token de acesso pessoal para o SSO.

  7. Insira seu nome de usuário no campo nome de usuário do provedor Git.

  8. Clique em Save (Salvar).

Também é possível salvar um token e um nome de usuário do Git PAT no Azure Databricks usando a API do Databricks Repos.

Se não for possível clonar o repositório e você estiver usando o Azure DevOps com autenticação do Microsoft Entra ID, consulte Problema com uma política de acesso condicional (CAP) do Microsoft Entra ID (antigo Azure Active Directory).

Conectividade de rede entre as pastas Git do Databricks e um provedor do Git

As pastas Git do Databricks precisa de conectividade de rede com seu provedor do Git para funcionar. Normalmente, isso é pela Internet e funciona fora da caixa. No entanto, você pode ter configurado restrições adicionados em seu provedor Git para controlar o acesso. Por exemplo, você pode ter uma lista de permissões de IP em vigor ou pode hospedar seu próprio servidor Git local usando serviços, como GitHub Enterprise (GHE), Bitbucket Server (BBS) ou Gitlab autogerenciado. Dependendo da hospedagem e da configuração da sua rede, é possível que o servidor Git não seja acessível pela Internet.

Observação

  • Se seu servidor Git estiver acessível pela Internet, mas tiver uma lista de IPs permitidos em vigor, por exemplo, Listas de permissões do GitHub, você deverá adicionar IPs NAT do painel de controle do Azure Databricks à lista de IPs permitidos do servidor Git. Confira Regiões do Azure Databricks para obter uma lista de endereços IP NAT do painel de controle por região. Use o IP da região em que está o seu workspace do Azure Databricks.
  • Se você estiver hospedando um servidor Git de formar particular, leia Configurar a conectividade privada do Git para as pastas Git (Repos) do Databricks ou entre em contato com sua equipe de conta do Azure Databricks para obter instruções de integração para acesso.

Recursos de segurança em pastas Git

As pastas Git do Databricks têm muitos recursos de segurança. As seções a seguir orientam você pela configuração e uso:

  • Uso de credenciais criptografadas do Git
  • Uma lista de permitidos
  • Controle de acesso do workspace
  • Log de auditoria
  • Detecção de segredos

Traga sua própria chave: Criptografar as credenciais do Git

Use o Azure Key Vault para criptografar um PAT (token de acesso pessoal) do Git ou outra credencial do Git. O uso de uma chave em um serviço de criptografia é chamado de CMK (chave gerenciada pelo cliente) ou BYOK (traga sua própria chave).

Para obter mais informações, confira Chaves gerenciadas pelo cliente para criptografia.

Restringir o uso de URLs em uma lista de permissões

Se você usar o Microsoft Entra ID para a autenticação no Azure DevOps, a lista de permissões padrão restringirá as URLs do Git a:

  • dev.azure.com
  • visualstudio.com

Para AAD com CNAMES personalizados ou aliases de URL do Git, o administrador do seu workspace pode configurar uma lista de permissões personalizada, conforme mostrado nas etapas a seguir. Se você usar uma lista de permissões personalizada, o administrador do workspace precisará adicionar esses URLs se quiser trabalhar com eles: dev.azure.com e visualstudio.com.

O administrador do espaço de trabalho pode limitar os repositórios remotos dos quais os usuários podem fazer clonagem, confirmação e push. Isso ajuda a impedir a exfiltração do código; por exemplo, os usuários não poderão enviar código por push para um repositório arbitrário se você tiver ativado as restrições da lista de permissões. Você também pode impedir que os usuários usem código não habilitado restringindo a operação de clonagem a uma lista de repositórios permitidos.

Para configurar uma lista de permissões:

  1. Vá para a página de configurações.
  2. Clique na guia Administrador do workspace (ela está aberta por padrão).
  3. Na seção Desenvolvimento, escolha uma opção na Lista de permissões de URLs do Git:
    • Desabilitado (sem restrições): não há verificações na lista de permissões.
    • Restringir clonagem, commit e push nos repositórios Git permitidos: as operações de clonagem, fazer commit e efetuar push são permitidas somente para URLs de repositório na lista de permissões.
    • Restringir commit e push apenas nos repositórios Git permitidos: as operações de confirmação e push são permitidas apenas para URLs de repositório na lista de permissões. As operações de clonagem e pull não são restritas.

O painel Desenvolvimento em Configurações de Administração, usado para definir o acesso Git do usuário

  1. Clique no botão Editar ao lado da Lista de permissões de URLs do Git: lista vazia, insira uma lista separada por vírgulas de prefixos de URL.

O botão Editar lista de permissões nas configurações de administrador de desenvolvimento

  1. Clique em Save (Salvar).

Observação

  • A lista que você salva substitui o conjunto existente de prefixos de URL salvos.
  • Pode demorar até 15 minutos para as alterações entrarem em vigor.

Permitir acesso a todos os repositórios

Para desabilitar uma lista de permissões existente e permitir o acesso a todos os repositórios:

  1. Vá para a página de configurações.
  2. Clique na guia Administração de workspace.
  3. Na seção Desenvolvimento, em Permissão de lista de permissões de URL do Git: selecione Desabilitar (sem restrições).

Controlar o acesso a um repositório em seu workspace

Observação

O controle de acesso está disponível somente com o plano Premium.

Defina permissões para controlar o acesso a um repositório. As permissões para um repositório se aplicam a todo o conteúdo nesse repositório. Você pode atribuir cinco níveis de permissão aos arquivos: SEM PERMISSÕES, PODE LER, PODE EXECUTAR, PODE EDITAR e PODE GERENCIAR.

Para obter mais detalhes sobre as permissões de pasta Git, confira ACLs de pasta Git.

(Opcional) Configurar um proxy para Servidores Git corporativos

Se sua empresa usa um serviço Git corporativo local, como o GitHub Enterprise ou o Azure DevOps Server, você pode usar o Proxy do Servidor Git para o Databricks para conectar seus workspaces do Databricks para os repositórios que ele atende.

Log de auditoria

Quando o log de auditoria está habilitado, os eventos de auditoria são registrados quando você interage com uma pasta Git. Por exemplo, um evento de auditoria é registrado quando você cria, atualiza ou exclui uma pasta Git, lista todas as pastas Git associadas a um workspace e quando você sincroniza alterações entre as pastas Git e um repositório remoto do Git.

Detecção de segredos

As pastas Git do Databricks examinam o código para obter as IDs de chave de acesso que começam com o prefixo AKIA e avisam o usuário antes de fazer commit.

Usar um arquivo de configuração de repositório

Você pode adicionar configurações para cada notebook ao repositório em um arquivo .databricks/commit_outputs criado manualmente.

Especifique qual notebook deve incluir saídas usando padrões semelhantes aos padrões gitignore.

Padrões para um arquivo de configuração de repositório

O arquivo contém padrões de caminho de arquivo positivos e negativos. Os padrões de caminho de arquivo incluem a extensão de arquivo do notebook, como .ipynb.

  • Padrões positivos permitem a inclusão de saídas para notebooks correspondentes.
  • Padrões negativos desabilitam a inclusão de saídas para notebooks correspondentes.

Os padrões são avaliados para todos os notebooks. Caminhos inválidos ou caminhos que não são resolvidos para notebooks .ipynb são ignorados.

Para incluir saídas de um caminho de notebookfolder/innerfolder/notebook.ipynb, use os seguintes padrões:

**/*
folder/**
folder/innerfolder/note*

Para excluir saídas de um notebook, verifique se nenhum dos padrões positivos corresponde ou adicione um padrão negativo em um local correto do arquivo de configuração. Padrões negativos (exclusão) começam com !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Mover a pasta Git para o lixo (excluir)

Para excluir uma pasta Git do seu workspace:

  1. Clique com o botão direto do mouse na pasta Git e depois selecione Mover para a lixeira.

  2. Na caixa de diálogo, digite o nome da pasta Git que você quer excluir. Em seguida, clique em Confirmar e mover para a lixeira.

     Caixa de diálogo Confirmar Mover para a Lixeira.

Próximas etapas