Gerenciar ativos de arquivo em pastas do Databricks Git

As pastas Git do Databricks servem como clientes Git para clones gerenciados pelo Databricks de repositórios de origem baseados no Git, permitindo que você execute um subconjunto de operações Git em seu conteúdo a partir do seu espaço de trabalho. Como parte dessa integração do Git, os arquivos armazenados no repositório remoto são vistos como "ativos" com base em seu tipo, com algumas limitações específicas para seu tipo. Os arquivos de bloco de anotações, em particular, têm propriedades diferentes com base em seu tipo. Leia este artigo para entender como trabalhar com ativos, especialmente notebooks IPYNB, em pastas Git.

Tipos de ativos suportados

Apenas determinados tipos de ativos do Azure Databricks são suportados pelas pastas Git. Nesse caso, "supported" significa "pode ser serializado, version-controlled e enviado para o repositório Git de backup".

Atualmente, os tipos de ativos suportados são:

Tipo de Recurso Detalhes
Ficheiro Os arquivos são dados serializados e podem incluir qualquer coisa, de bibliotecas a binários, de código a imagens. Para obter mais informações, leia O que são arquivos de espaço de trabalho?
Bloco de Notas Os blocos de notas são especificamente os formatos de ficheiro de notas suportados pelo Databricks. Os blocos de anotações são considerados um tipo de ativo do Azure Databricks separado dos Arquivos, pois não são serializados. As pastas Git determinam um Notebook pela extensão do arquivo (como .ipynb) ou por extensios de arquivo combinados com um marcador especial no conteúdo do arquivo (por exemplo, um # Databricks notebook source comentário no início dos arquivos de .py origem).
Pasta Uma pasta é uma estrutura específica do Azure Databricks que representa informações serializadas sobre um agrupamento lógico de arquivos no Git. Como esperado, o usuário experimenta isso como uma "pasta" ao exibir uma pasta Git do Azure Databricks ou acessá-la com a CLI do Azure Databricks.

Os tipos de ativos do Azure Databricks que atualmente não são suportados nas pastas Git incluem o seguinte:

  • Consultas DBSQL
  • Alertas
  • Painéis (incluindo painéis herdados)

Nota

Você pode mover ativos existentes sem suporte para uma pasta Git, mas não pode confirmar alterações nesses ativos de volta para o repositório. Não é possível criar novos ativos sem suporte em uma pasta Git.

Formatos de notebook

O Databricks considera dois tipos de formatos de notebook específicos do Databricks de alto nível: "source" e "ipynb". Quando um usuário confirma um bloco de anotações no formato "fonte", a plataforma Databricks confirma um arquivo simples com um sufixo de idioma, como .py, .sql, .scalaou .r. Um bloco de anotações no formato "fonte" contém apenas código-fonte e não contém saídas, como exibições de tabelas e visualizações, que são os resultados da execução do bloco de anotações.

O formato "ipynb", no entanto, tem saídas associadas a ele, e esses artefatos são automaticamente enviados para o repositório Git que apoia a pasta Git ao empurrar o .ipynb notebook que os gerou. Se você quiser confirmar saídas junto com o código, use o formato de notebook "ipynb" e a configuração de configuração para permitir que um usuário confirme todas as saídas geradas. Como resultado, o "ipynb" também suporta uma melhor experiência de visualização no Databricks para notebooks enviados para repositórios Git remotos através de pastas Git.

Formato de origem do bloco de notas Detalhes
origem Pode ser qualquer arquivo de código com um sufixo de arquivo padrão que sinaliza a linguagem de código, como .py, .scala.r e .sql. Os blocos de anotações "fonte" são tratados como arquivos de texto e não incluirão nenhuma saída associada quando confirmadas de volta a um repositório Git.
IPYNB Os arquivos "ipynb" terminam com .ipynb e podem, se configurados, enviar saídas por push (como visualizações) da pasta Databricks Git para o repositório Git de backup. Um .ipnynb bloco de anotações pode conter código em qualquer idioma suportado pelos blocos de anotações Databricks (apesar da py parte do .ipynb).

Se você quiser que as saídas sejam enviadas de volta para o repositório depois de executar um bloco de anotações, use um bloco de .ipynb anotações (Jupyter). Se você quiser apenas executar o bloco de anotações e gerenciá-lo no Git, use um formato de "origem" como .py.

Para obter mais detalhes sobre os formatos de bloco de notas suportados, leia Exportar e importar blocos de notas Databricks.

Nota

O que são "outputs"?

As saídas são os resultados da execução de um bloco de anotações na plataforma Databricks, incluindo exibições de tabelas e visualizações.

Como faço para saber qual formato um bloco de anotações está usando, além da extensão de arquivo?

Na parte superior de um bloco de anotações gerenciado pelo Databricks, geralmente há um comentário de linha única que indica o formato. Por exemplo, para um bloco de .py anotações de "origem", você verá uma linha semelhante a esta:

# Databricks notebook source

Para .ipynb arquivos, o sufixo de arquivo é usado para indicar que é o formato de notebook "ipynb".

Blocos de anotações IPYNB em pastas Databricks Git

O suporte para notebooks Jupyter (.ipynb arquivos) está disponível nas pastas Git. Você pode clonar repositórios com .ipynb blocos de anotações, trabalhar com eles no produto Databricks e, em seguida, confirmá-los e enviá-los por push como .ipynb blocos de anotações. Os metadados, como o painel do bloco de anotações, são preservados. Os administradores podem controlar se as saídas podem ser confirmadas ou não.

Permitir a confirmação .ipynb da saída do bloco de notas

Por padrão, a configuração de administrador para pastas Git não permite que .ipynb a saída do bloco de anotações seja confirmada. Os administradores do espaço de trabalho podem alterar esta configuração:

  1. Vá para Configurações > do administrador Configurações do espaço de trabalho.

  2. Em Pastas > Git Permitir que as pastas Git exportem saídas IPYNB, selecione Permitir: as saídas IPYNB podem ser ativadas.

    Admin console: permita que as pastas Git exportem saídas IPYNB.

Importante

Quando as saídas são incluídas, as configurações de visualização e painel são preservadas com o formato de arquivo .ipynb.

Controlar confirmações de artefato de saída de notebook IPYNB

Quando você confirma um .ipynb arquivo, o Databricks cria um arquivo de configuração que permite controlar como você confirma as saídas: .databricks/commit_outputs.

  1. Se você tiver um arquivo de bloco de .ipynb anotações, mas nenhum arquivo de configuração em seu repositório, abra o modal Git Status.

  2. Na caixa de diálogo de notificação, clique em Criar commit_outputs arquivo.

    Interface do usuário de confirmação do bloco de anotações: botão Criar commit_outputs arquivo.

Você também pode gerar arquivos de configuração no menu Arquivo . O menu Arquivo tem um controle que permite atualizar automaticamente o arquivo de configuração para especificar a inclusão ou exclusão de saídas para um bloco de anotações específico.

  1. No menu Arquivo, selecione Confirmar saídas de blocos de anotações.

    Noteboook editor: Confirme o status e o controle das saídas dos blocos de anotações.

  2. Na caixa de diálogo, confirme sua opção de confirmar as saídas do bloco de anotações.

    Caixa de diálogo Confirmar saídas de blocos de anotações.

Converter um bloco de anotações de origem em IPYNB

Você pode converter um bloco de anotações de origem existente em uma pasta Git em um bloco de anotações IPYNB por meio da interface do usuário do Azure Databricks.

  1. Abra um bloco de anotações de origem em seu espaço de trabalho.

  2. Selecione Arquivo no menu do espaço de trabalho e, em seguida, selecione Alterar formato do bloco de anotações [fonte]. Se o notebook já estiver no formato IPYNB, [source] será [ipynb] no elemento menu.

    O menu do arquivo de espaço de trabalho, expandido, mostrando a opção Alterar formato do bloco de anotações.

  3. Na caixa de diálogo modal, selecione "Jupyter notebook format (.ipynb)" e clique em Alterar.

    A caixa de diálogo modal onde você pode selecionar o formato de notebook IPYNB.

Também pode:

  • Crie novos .ipynb blocos de notas.
  • Visualize diffs como Code diff (alterações de código nas células) ou Raw diff (as alterações de código são apresentadas como sintaxe JSON, que inclui saídas de bloco de anotações como metadados).

Para obter mais informações sobre os tipos de blocos de anotações com suporte no Azure Databricks, leia Exportar e importar blocos de anotações Databricks.