Share via


O que aconteceu com o Databricks Repos?

O Azure Databricks distribuiu novos elementos de interface do usuário que permitem que os usuários trabalhem diretamente com pastas com suporte de repositório Git da interface do usuário do workspace, substituindo efetivamente a funcionalidade de recurso “Repos” anterior e separada.

O que essa mudança significa para mim?

Se você for um usuário do recurso Repos do Databricks para controle do código-fonte baseado em Git coversão dos ativos do projeto, a funcionalidade principal não foi alterada. A diferença mais notável é que muitas operações de interface do usuário contextuais agora se referem a “pastas” Git em vez de “Repos”.

Por exemplo, uma pasta do Databricks apoiada por um repositório Git pode ser criada selecionando Novo e, em seguida, Repositorio da interface do usuário:

A opção de menu “Novo” usada para se referir a um “Repositório”

Agora, selecione Novo e escolha pasta Git. A mesma coisa, nome diferente!

A opção de menu “Novo” agora solicita que você crie uma “pasta Git”

Essa alteração fornece algumas melhorias que simplificam o trabalho com pastas controladas por versão:

  1. Melhor organização de pastas: as pastas Git podem ser criadas em qualquer nível da árvore de arquivos do workspace, permitindo que você organize suas pastas Git de uma maneira que funcione melhor para seu projeto. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Repos só pode ser criado em um nível de diretório fixo, como a raiz da pasta de usuário repositório, como /Workspace/Repos/<user email>/<Repo name>.
    • Observação: as pastas Git podem conter ou agrupar com outros ativos que não têm suporte atualmente pelo Repos. Tipos de ativo sem suporte, como ativos DBSQL e experimentos de MLflow, podem ser movidos para pastas Git. O suporte à serialização para ativos adicionais será adicionado ao longo do tempo.
  2. Comportamentos simplificados da interface do usuário: esta alteração traz uma interação comum do espaço de trabalho – trabalhar com o Git – diretamente para o seu workspace do Databricks e reduz o tempo gasto na navegação entre o seu workspace e as suas pastas Git controladas por versão.

O que mudou, especificamente?

  1. As pastas Git podem ser criadas fora do diretório /Repos.
  2. As pastas do Git são criadas selecionando Novo>pasta Git em um workspace do Databricks. Isso cria uma nova pasta Git em /Workspace/Users/<user-email>/.
  3. As pastas Git podem ser criadas em várias profundidades da árvore de arquivos do workspace, desde que estejam sob /Workspace/Users/<user-email>. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Você pode ter várias pastas Git em /Workspace/Users/<user-email>.
  4. Ativos sem suporte são permitidos em pastas Git. O suporte à serialização para outros tipos de ativos será adicionado ao longo do tempo.
  5. Ao contrário do Repos, você não pode criar uma nova pasta Git no Databricks sem uma URL do repositório remoto.

Detalhes adicionais

Os Repos existentes que os usuários criaram não desaparecerão. Os usuários não são obrigados a migrar Repos existentes para pastas Git. Os Repos foram integrados à interface do usuário do workspace e não são mais uma experiência de nível superior separada na interface do usuário.

  • As referências /Repos existentes continuarão a funcionar: referências jobs, dbutils.notebook.run e %run que usam notebooks localizados em caminhos /Repos continuarão funcionando.
  • A pasta /Repos existente será convertida em uma pasta normal em /Workspace como /Workspace/Repos e qualquer tratamento especial poderá ser removido. Em casos raros, talvez seja necessário fazer alguma modificação em seu workspace para que esse redirecionamento funcione. Para obter mais detalhes, consulte Referências a objetos de workspace.

O Databricks recomenda que os usuários criem novas pastas Git em vez de Repos se precisarem se conectar ao controle do código-fonte Git do workspace do Databricks. A colocação de repositórios Git e outros ativos de workspace torna as pastas Git mais detectáveis e fáceis de gerenciar do que Repos.

Permissões de pasta Git as pastas Git têm as mesmas permissões de pasta de workspace que outras pastas de workspace. Os usuários devem ter a permissão CAN_MANAGE para executar a maioria das operações do Git.

Qual DBR devo usar para executar código em pastas Git?

Para execução de código consistente entre pastas Git e Repos herdados, o Databricks recomenda que os usuários executem código somente em pastas Git com DBR 15+.

O comportamento atual do CWD (diretório de trabalho)

O Databricks Runtime (DBR) versão 14 ou superior permite o uso de caminhos relativos e fornece a mesma experiência atual do CWD (diretório de trabalho) para todos os notebooks, em que você executa o notebook do diretório de trabalho atual. A atual experiência do CWD pode ser inconsistente entre notebooks em uma pasta Git e uma pasta não Git para versões mais antigas do DBR (Databricks Runtime).

Comportamento sys.path do Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece o mesmo comportamento de sys.path em pastas Git que no Repos herdado. Com versões anteriores do DBR, as pastas Git têm um comportamento diferente do Repos herdado, pois o diretório de repositório raiz não é adicionado automaticamente ao sys.path para pastas Git. Para Python, sys.path contém uma lista de diretórios que o interpretador pesquisa ao importar módulos. Se você não puder usar o DBR 14.3 ou superior, como solução alternativa, poderá acrescentar manualmente um caminho de pasta ao sys.path.

Para obter exemplos sobre como adicionar diretórios a sys.path usando caminhos relativos, consulte Importar módulos Python e R.

Precedência da biblioteca Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece a mesma precedência de biblioteca Python em pastas Git que no Repos herdado.