Share via


Configurar pastas Git Databricks (Repos)

Saiba como configurar pastas Databricks Git (anteriormente Repos) para controle de versão. Depois de configurar as pastas Git em seu Databricks, você pode executar operações comuns do Git, como clonar, finalizar pagamento, confirmar, empurrar, extrair e gerenciar ramificações nelas a partir da interface do usuário do Databricks. Também pode ver as diferenças nas suas alterações à medida que programa com blocos de notas e ficheiros no Databricks.

Definir configurações do usuário

As pastas Databricks Git usam um token de acesso pessoal (PAT) ou uma credencial equivalente para autenticar com seu provedor Git para executar operações como clone, push, pull etc. Para usar pastas Git, você deve primeiro adicionar seu nome de usuário Git PAT e provedor Git ao Databricks. Consulte Configurar credenciais do Git & conectar um repositório remoto ao Azure Databricks.

Você pode clonar repositórios remotos públicos sem credenciais Git (um token de acesso pessoal e um nome de usuário). Para modificar um repositório remoto público ou clonar ou modificar um repositório remoto privado, você deve ter um nome de usuário do provedor Git e PAT com permissões de gravação (ou superiores) para o repositório remoto.

As pastas Git são ativadas por padrão. Para obter mais detalhes sobre como habilitar ou desabilitar o suporte à pasta Git, consulte Habilitar ou desabilitar o recurso de pasta Git Databricks.

Adicionar ou editar credenciais do Git no Databricks

Importante

As pastas Databricks Git suportam apenas uma credencial Git por usuário, por espaço de trabalho.

  1. Selecione a seta para baixo junto ao nome da conta no canto superior direito do ecrã e, em seguida, selecione Definições.

  2. Selecione o separador Contas associadas.

  3. Se estiver a adicionar do credenciais pela primeira vez, siga as instruções no ecrã.

    Se você tiver inserido credenciais anteriormente, clique em Config>Edit e vá para a próxima etapa.

  4. Na lista pendente Fornecedor do Git, selecione o nome do fornecedor.

  5. Digite seu nome de usuário ou e-mail do Git.

  6. No campo Token, adicione um token de acesso pessoal (PAT) ou outras credenciais do seu provedor Git. Para obter detalhes, consulte Configurar credenciais do Git & conectar um repositório remoto ao Azure Databricks

    Importante

    O Databricks recomenda que você defina uma data de expiração para todos os tokens de acesso pessoal.

    Para o Azure DevOps, se você não inserir um token ou senha de aplicativo, a integração do Git usará seu token Microsoft Entra ID (anteriormente Azure Ative Directory) por padrão. Se você inserir um token de acesso pessoal do Azure DevOps, a integração do Git o usará em vez disso. Consulte Conectar-se a um repositório de DevOps do Azure usando um token.

    Nota

    Depois de atualizar sua senha do Azure, autentique-se novamente com o Azure Databricks se precisar que a nova autenticação funcione imediatamente. Se você não autenticar novamente, a conexão do Azure DevOps pode não ser validada por até 24 horas.

    Se sua organização tiver o SAML SSO habilitado no GitHub, autorize seu token de acesso pessoal para SSO.

  7. Digite seu nome de usuário no campo Nome de usuário do provedor Git.

  8. Clique em Guardar.

Você também pode salvar um token PAT Git e um nome de usuário no Azure Databricks usando a API Databricks Repos.

Se você não conseguir clonar o repositório e estiver usando o Azure DevOps com a autenticação de ID do Microsoft Entra, consulte Problema com uma política de acesso condicional (CAP) para o Microsoft Entra ID (anteriormente Azure Ative Directory).

Conectividade de rede entre pastas Git Databricks e um provedor Git

As pastas Git precisam de conectividade de rede com seu provedor Git para funcionar. Normalmente, isso é através da internet e funciona fora da caixa. No entanto, você pode ter configurado restrições adicionais em seu provedor Git para controlar o acesso. Por exemplo, você pode ter uma lista de permissões de IP em vigor ou pode hospedar seu próprio servidor Git local usando serviços como GitHub Enterprise (GHE), Bitbucket Server (BBS) ou Gitlab Self-managed. Dependendo da sua hospedagem e configuração de rede, seu servidor Git pode não estar acessível pela internet.

Nota

  • Se o seu servidor Git estiver acessível pela Internet, mas tiver uma lista de permissões de IP em vigor, como listas de permissões do GitHub, você deverá adicionar IPs NAT do plano de controle do Azure Databricks à lista de permissões de IP do servidor Git. Consulte Regiões do Azure Databricks para obter uma lista de endereços IP NAT do plano de controle por região. Use o IP para a região em que seu espaço de trabalho do Azure Databricks está.
  • Se você estiver hospedando um servidor Git de forma privada, leia Configurar a conectividade Git privada para pastas Git (Repos) do Databricks ou entre em contato com sua equipe de conta do Azure Databricks para obter instruções de integração para acesso.

Recursos de segurança em pastas do Git

As pastas Databricks Git têm muitos recursos de segurança. As seções a seguir orientam você por sua configuração e uso:

  • Uso de credenciais Git criptografadas
  • Uma lista de permissões
  • Controlo de acesso a áreas de trabalho
  • Registo de auditoria
  • Deteção de segredos

Traga sua própria chave: criptografe as credenciais do Git

Você pode usar o Azure Key Vault para criptografar um token de acesso pessoal (PAT) do Git ou outra credencial do Git. O uso de uma chave de um serviço de criptografia é conhecido como uma chave gerenciada pelo cliente (CMK) ou traga sua própria chave (BYOK).

Para obter mais informações, consulte Chaves gerenciadas pelo cliente para criptografia.

Restringir o uso a URLs em uma lista de permissões

Se você usar a ID do Microsoft Entra para autenticação com o Azure DevOps, a lista de permissões padrão restringe as URLs do Git a:

  • dev.azure.com
  • visualstudio.com

Para o AAD com CNAMES personalizados ou aliases de URL do Git, o administrador do espaço de trabalho pode configurar uma lista de permissões personalizada, conforme mostrado nas etapas a seguir. Se você usar uma lista de permissões personalizada, o administrador do espaço de trabalho precisará adicionar esses URLs se quiser trabalhar com eles: dev.azure.com e visualstudio.com.

Um administrador de espaço de trabalho pode limitar de quais repositórios remotos os usuários podem clonar e confirmar & por push. Isso ajuda a evitar a exfiltração do seu código; Por exemplo, os usuários não podem enviar código para um repositório arbitrário se você tiver ativado as restrições da lista de permissões. Você também pode impedir que os usuários usem código não licenciado restringindo a operação de clone a uma lista de repositórios permitidos.

Para configurar uma lista de permissões:

  1. Vá para a página de configurações.
  2. Clique na guia Administração do espaço de trabalho (ele é aberto por padrão).
  3. Na seção Desenvolvimento, escolha uma opção na permissão da lista de permissões de URL do Git:
    • Desativado (sem restrições): Não há verificações na lista de permissões.
    • Restringir clone, confirmar & Enviar por push para repositórios Git permitidos: as operações de clonagem, confirmação e envio por push são permitidas apenas para URLs de repositório na lista de permissões.
    • Restringir somente Commit & Push para repositórios Git permitidos: As operações de confirmação e push são permitidas apenas para URLs de repositório na lista de permissões. As operações de clonagem e tração não são restritas.

O painel Desenvolvimento em Configurações do administrador, usado para definir o acesso ao Git do usuário

  1. Clique no botão Editar ao lado de Lista de permissões de URL do Git: Lista vazia e insira uma lista separada por vírgulas de prefixos de URL.

O botão Editar lista de permissões nas configurações de administrador de desenvolvimento

  1. Clique em Guardar.

Nota

  • A lista salva substitui o conjunto existente de prefixos de URL salvos.
  • Pode levar até 15 minutos para que as alterações entrem em vigor.

Permitir acesso a todos os repositórios

Para desativar uma lista de permissões existente e permitir o acesso a todos os repositórios:

  1. Vá para a página de configurações.
  2. Clique na guia Administrador do espaço de trabalho.
  3. Na seção Desenvolvimento, em Permissão da lista de permissões de URL do Git: selecione Desativar (sem restrições).

Controle o acesso de um repositório em seu espaço de trabalho

Nota

O controle de acesso está disponível apenas no plano Premium.

Defina permissões para um repositório para controlar o acesso. As permissões para um repositório aplicam-se a todo o conteúdo desse repositório. Você pode atribuir cinco níveis de permissão aos arquivos: SEM PERMISSÕES, PODE LER, PODE EXECUTAR, PODE EDITAR e PODE GERENCIAR.

Para obter mais detalhes sobre as permissões da pasta Git, consulte ACLs da pasta Git.

(Opcional) Configurar um proxy para servidores Git corporativos

Se sua empresa usa um serviço Git corporativo local, como o GitHub Enterprise ou o Azure DevOps Server, você pode usar o Databricks Git Server Proxy para conectar seus espaços de trabalho Databricks aos repositórios que ele serve.

Registo de auditoria

Quando o log de auditoria está habilitado, os eventos de auditoria são registrados quando você interage com uma pasta Git. Por exemplo, um evento de auditoria é registrado quando você cria, atualiza ou exclui uma pasta Git, quando lista todas as pastas Git associadas a um espaço de trabalho e quando sincroniza alterações entre sua pasta Git e o repositório Git remoto.

Deteção de segredos

As pastas do Git verificam o código em busca de IDs de chave de acesso que começam com o prefixo AKIA e avisam o usuário antes de confirmar.

Usar um arquivo de configuração de repositório

Você pode adicionar configurações para cada bloco de anotações ao seu repositório em um .databricks/commit_outputs arquivo criado manualmente.

Especifique o bloco de anotações que você deseja incluir saídas usando padrões semelhantes aos padrões gitignore.

Padrões para um arquivo de configuração de repositório

O arquivo contém padrões de caminho de arquivo positivos e negativos. Os padrões de caminho de arquivo incluem extensão de arquivo de notebook, como .ipynb.

  • Padrões positivos permitem a inclusão de saídas para notebooks correspondentes.
  • Padrões negativos desativam a inclusão de saídas para blocos de anotações correspondentes.

Os padrões são avaliados em ordem para todos os notebooks. Caminhos inválidos ou caminhos que não resolvem para .ipynb blocos de anotações são ignorados.

Para incluir saídas de um caminhofolder/innerfolder/notebook.ipynb de bloco de anotações, use os seguintes padrões:

**/*
folder/**
folder/innerfolder/note*

Para excluir saídas para um bloco de anotações, verifique se nenhum dos padrões positivos corresponde ou adicione um padrão negativo em um local correto do arquivo de configuração. Os padrões negativos (excluir) começam com !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Mover a pasta Git para a lixeira (excluir)

Para excluir uma pasta Git do seu espaço de trabalho:

  1. Clique com o botão direito do mouse na pasta Git e selecione Mover para a lixeira.

  2. Na caixa de diálogo, digite o nome da pasta Git que você deseja excluir. Em seguida, clique em Confirmar & mover para a lixeira.

    Confirme a caixa de diálogo Mover para a Reciclagem.

Próximos passos