Share via


O que aconteceu com o Databricks Repos?

O Azure Databricks lançou novos elementos da interface do usuário que permitem que os usuários trabalhem diretamente com pastas apoiadas por repositório Git a partir da interface do usuário do espaço de trabalho, substituindo efetivamente a funcionalidade anterior e separada do recurso "Repos".

O que essa mudança significa para mim?

Se você for um usuário do recurso Databricks Repos para controle de origem baseado em Git coversionado de ativos do projeto, a funcionalidade principal não foi alterada. A diferença mais notável é que muitas operações contextuais da interface do usuário agora se referem a "pastas Git" em vez de "Repos".

Por exemplo, uma pasta Databricks apoiada por um repositório Git pode ser criada selecionando Novo e, em seguida , Repositório na interface do usuário:

A opção de menu

Agora, você seleciona Novo e escolhe a pasta Git. A mesma coisa, nome diferente!

A opção de menu

Essa alteração fornece algumas melhorias que simplificam o trabalho com pastas controladas por versão:

  1. Melhor organização de pastas: as pastas Git podem ser criadas em qualquer nível da árvore de arquivos do espaço de trabalho, permitindo que você organize suas pastas Git de uma maneira que funcione melhor para seu projeto. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Os repositórios só podem ser criados em um nível de diretório fixo, como a raiz da pasta de usuário do Repos, como /Workspace/Repos/<user email>/<Repo name>.
    • Nota: As pastas Git podem conter ou colocar com outros ativos que não são suportados pelo Repos atualmente. Tipos de ativos sem suporte, como ativos DBSQL e experimentos MLflow, podem ser movidos para pastas Git. O suporte de serialização para ativos adicionais será adicionado ao longo do tempo.
  2. Comportamentos simplificados da interface do usuário: essa alteração traz uma interação comum do espaço de trabalho – trabalhar com o Git – diretamente para o espaço de trabalho do Databricks e reduz o tempo gasto navegando entre o espaço de trabalho e as pastas Git controladas por versão.

O que mudou, especificamente?

  1. As pastas Git podem ser criadas fora do /Repos diretório.
  2. As pastas Git são criadas selecionando Nova>pasta Git em um espaço de trabalho Databricks. Isso cria uma nova pasta Git em /Workspace/Users/<user-email>/.
  3. As pastas Git podem ser criadas em várias profundidades da árvore de arquivos do espaço de trabalho, desde que estejam em /Workspace/Users/<user-email>. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Você pode ter várias pastas Git em /Workspace/Users/<user-email>.
  4. Ativos sem suporte são permitidos em pastas Git. O suporte à serialização para outros tipos de ativos será adicionado ao longo do tempo.
  5. Ao contrário de Repos, você não pode criar uma nova pasta Git no Databricks sem uma URL de repositório remoto.

Detalhes adicionais

Os repositórios existentes que os usuários criaram não estão desaparecendo. Os usuários não precisam migrar repositórios existentes para pastas Git. Os repositórios foram integrados à interface do usuário do espaço de trabalho e não são mais uma experiência de nível superior separada na interface do usuário.

  • As referências existentes /Repos continuarão a funcionar: jobs, dbutils.notebook.run e %run as referências que usam blocos de anotações localizados sob /Repos caminhos continuarão a funcionar.
  • A pasta existente /Repos será convertida em uma pasta normal em /Workspace como /Workspace/Repos, e qualquer manipulação especial pode ser removida. Em casos raros, pode ser necessário fazer alguma modificação no espaço de trabalho para que esse redirecionamento funcione. Para obter mais detalhes, consulte Referências a objetos de espaço de trabalho.

O Databricks recomenda que os usuários criem novas pastas Git em vez de Repos se precisarem se conectar ao controle de origem do Git a partir do espaço de trabalho Databricks. A colocalização de repositórios Git e outros ativos de espaço de trabalho torna as pastas Git mais detetáveis e fáceis de gerenciar do que os repositórios.

Permissões de pasta Git As pastas Git têm as mesmas permissões de pasta de espaço de trabalho que outras pastas de espaço de trabalho. Os usuários devem ter a permissão para executar a CAN_MANAGE maioria das operações do Git.

Qual DBR devo usar para executar código em pastas Git?

Para uma execução de código consistente entre pastas Git e repositórios herdados, o Databricks recomenda que os usuários executem código somente em pastas Git com DBR 15+.

Comportamento atual do diretório de trabalho (CWD)

O Databricks Runtime (DBR) versão 14 ou superior permite o uso de caminhos relativos e fornece a mesma experiência de diretório de trabalho atual (CWD) para todos os blocos de anotações, onde você executa o bloco de anotações a partir do diretório de trabalho atual. Os comportamentos atuais do diretório de trabalho (CWD) podem ser inconsistentes entre blocos de anotações em uma pasta Git e uma pasta não-Git para versões mais antigas do Databricks Runtime (DBR).

Comportamento sys.path do Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece o mesmo sys.path comportamento em pastas Git como em repositórios herdados. Com versões anteriores do DBR, o comportamento da pasta Git difere do Repos herdado, pois o diretório de repositório raiz não é adicionado automaticamente às sys.path pastas Git. Para Python, sys.path contém uma lista de diretórios que o interpretador pesquisa ao importar módulos. Se você não pode usar DBR 15 ou superior, você pode anexar manualmente um caminho de pasta como sys.path uma solução alternativa.

Para obter exemplos sobre como adicionar diretórios ao sys.path uso de caminhos relativos, consulte Importar módulos Python e R.

Precedência da biblioteca Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece a mesma precedência de biblioteca python em pastas Git como em Repositórios herdados.