Share via


O que são os arquivos do espaço de trabalho?

Um arquivo de espaço de trabalho é qualquer arquivo no espaço de trabalho do Azure Databricks que não seja um notebook do Databricks. Os arquivos do espaço de trabalho podem ser de qualquer tipo de arquivo. Exemplos comuns incluem:

  • Arquivos .py usados em módulos personalizados.
  • Arquivos .md, como README.md.
  • .csv ou outros arquivos de dados pequenos.
  • .txt arquivos.
  • .whl bibliotecas.
  • Arquivos de log.

Os arquivos do workspace incluem arquivos anteriormente conhecidos como "Arquivos em Repositório". Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e arquivos de workspace.

Importante

Os arquivos de espaço de trabalho são habilitados em todos os lugares por padrão no Databricks Runtime versão 11.2, mas podem ser desabilitados por administradores usando a API REST. Nas cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do workspace se você não puder acessar essa funcionalidade.

O que você pode fazer com os arquivos do workspace

O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivos de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados. Por exemplo, embora você possa incluir imagens em um diretório ou repositório importado, não é possível incorporar imagens em notebooks.

Você pode criar, editar e gerenciar o acesso aos arquivos do espaço de trabalho usando padrões familiares das interações do notebook. É possível usar caminhos relativos para importações de bibliotecas de arquivos do espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais informações, consulte:

Os scripts de inicialização armazenados em arquivos do espaço de trabalho têm um comportamento especial. É possível usar arquivos do espaço de trabalho para armazenar e referenciar scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Armazenar scripts de inicialização em arquivos do espaço de trabalho.

Observação

No Databricks Runtime 14.0 e superior, o CWD (diretório de trabalho atual) padrão para o código executado localmente é o diretório que contém o notebook ou o script que está sendo executado. Essa é uma alteração no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho padrão atual?.

Limitações

Uma lista completa de limitações dos arquivos de workspace é encontrada em Limitações dos arquivos de workspace.

Limite de tamanho de arquivo

Os arquivos individuais do espaço de trabalho são limitados a 500 MB.

Os usuários podem fazer upload de arquivos de até 500 MB na interface do usuário. O tamanho máximo de arquivo permitido ao gravar em um cluster é de 256 MB.

Versões do Databricks Runtime para arquivos em pastas Git com um cluster com os Serviços de Contêiner do Azure Databricks

Nos clusters que executam o Databricks Runtime 11.3 LTS e superior, as configurações padrão permitem que você use arquivos de workspace em pastas Git com os Serviços de Contêiner do Azure Databricks (DCS).

Em clusters que executam as versões 10.4 LTS e 9.1 LTS do Databricks Runtime, você deve configurar o dockerfile para acessar arquivos de workspace nas pastas Git em um cluster com DCS. Consulte os seguintes dockerfiles da versão desejada do Databricks Runtime:

Consulte Personalização de contêineres com o Serviço de Contêiner do Databricks

Habilitar arquivos de workspace

Para habilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a API REST /api/2.0/workspace-conf de um notebook ou outro ambiente com acesso ao workspace do Databricks. Os arquivos de workspace são habilitados por padrão.

Para habilitar ou reabilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a /api/2.0/workspace-conf e obtenha o valor da chave enableWorkspaceFileSystem. Se ele estiver definido como true, arquivos que não são notebooks já estão habilitados para seu workspace.

O exemplo a seguir demonstra como você pode chamar essa API de um notebook para verificar se os arquivos de workspace estão desabilitados e, em caso afirmativo, habilitá-los novamente.

Exemplo: notebook para habilitar novamente o suporte ao arquivo de workspace do Databricks

Obter notebook