Share via


O que são arquivos de espaço de trabalho?

Um arquivo de espaço de trabalho é qualquer arquivo no espaço de trabalho do Azure Databricks que não seja um bloco de anotações Databricks. Os arquivos de espaço de trabalho podem ser de qualquer tipo de arquivo. Exemplos comuns incluem:

  • .py arquivos usados em módulos personalizados.
  • .md arquivos, como README.md.
  • .csv ou outros pequenos ficheiros de dados.
  • .txt ficheiros.
  • .whl bibliotecas.
  • Ficheiros de registo.

Os arquivos de espaço de trabalho incluem arquivos anteriormente referidos como "Arquivos em Repos". Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e arquivos de espaço de trabalho.

Importante

Os arquivos de espaço de trabalho são habilitados em todos os lugares por padrão no Databricks Runtime versão 11.2, mas podem ser desabilitados por administradores usando a API REST. Para cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do espaço de trabalho se não conseguir acessar essa funcionalidade.

O que você pode fazer com arquivos de espaço de trabalho

O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados. Por exemplo, embora seja possível incluir imagens em um diretório ou repositório importado, não é possível incorporar imagens em blocos de anotações.

Você pode criar, editar e gerenciar o acesso a arquivos de espaço de trabalho usando padrões familiares de interações do bloco de anotações. Você pode usar caminhos relativos para importações de bibliotecas de arquivos de espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais detalhes, consulte:

Os scripts de inicialização armazenados em arquivos de espaço de trabalho têm um comportamento especial. Você pode usar arquivos de espaço de trabalho para armazenar e fazer referência a scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Armazenar scripts de inicialização em arquivos de espaço de trabalho.

Nota

No Databricks Runtime 14.0 e superior, o diretório de trabalho atual padrão (CWD) para código executado localmente é o diretório que contém o bloco de anotações ou script que está sendo executado. Esta é uma mudança no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho atual padrão?.

Limitações

Uma lista completa de limitações de arquivos de espaço de trabalho é encontrada em Limitações de arquivos de espaço de trabalho.

Limite de tamanho de ficheiro

Os arquivos individuais do espaço de trabalho são limitados a 500 MB.

Os usuários podem carregar arquivos de até 500 MB a partir da interface do usuário. O tamanho máximo de ficheiro permitido ao escrever a partir de um cluster é de 256 MB.

Versões do Databricks Runtime para arquivos em pastas Git com um cluster com o Azure Databricks Container Services

Em clusters que executam o Databricks Runtime 11.3 LTS e superior, as configurações padrão permitem que você use arquivos de espaço de trabalho em pastas Git com o Azure Databricks Container Services (DCS).

Em clusters que executam o Databricks Runtime versões 10.4 LTS e 9.1 LTS, você deve configurar o dockerfile para acessar arquivos de espaço de trabalho em pastas Git em um cluster com DCS. Consulte os seguintes dockerfiles para obter a versão desejada do Databricks Runtime:

Consulte Personalizar contêineres com o Databricks Container Service

Habilitar arquivos de espaço de trabalho

Para habilitar o suporte para arquivos que não sejam de notebook em seu espaço de trabalho Databricks, chame a API REST /api/2.0/workspace-conf de um bloco de anotações ou outro ambiente com acesso ao seu espaço de trabalho Databricks. Os arquivos de espaço de trabalho são habilitados por padrão.

Para habilitar ou reativar o suporte para arquivos que não sejam de bloco de anotações em seu espaço de trabalho Databricks, chame e /api/2.0/workspace-conf obtenha o enableWorkspaceFileSystem valor da chave. Se estiver definido como true, os ficheiros que não são do bloco de notas já estão ativados para a sua área de trabalho.

O exemplo a seguir demonstra como você pode chamar essa API de um bloco de anotações para verificar se os arquivos do espaço de trabalho estão desabilitados e, em caso afirmativo, reativá-los.

Exemplo: Bloco de anotações para reativar o suporte a arquivos de espaço de trabalho Databricks

Obter o bloco de notas