Share via


Recomendações para trabalhar com raiz do DBFS

O Azure Databricks usa o diretório raiz do DBFS como um local padrão para algumas ações de workspace. O Databricks recomenda o armazenamento de dados de produção ou informações confidenciais na raiz do DBFS. Este artigo se concentra nas recomendações para evitar a exposição acidental de dados confidenciais na raiz do DBFS.

Observação

O Azure Databricks configura um local de armazenamento privado separado para manter dados e configurações no armazenamento em nuvem de propriedade do cliente, conhecido como DBFS interno. Esse local não é exposto aos usuários.

Importante

A partir de 6 de março de 2023, os novos espaços de trabalho do Azure Databricks usarão as contas de armazenamento do Azure Data Lake Storage Gen2 para a raiz do DBFS. Os workspaces provisionados anteriormente usam o Armazenamento de Blobs.

Instruir usuários a não armazenar dados na raiz do DBFS

Como a raiz do DBFS é acessível a todos os usuários em um workspace, todos os usuários podem acessar os dados armazenados nela. É importante instruir os usuários a evitar o uso desse local para armazenar dados confidenciais. O local padrão para tabelas gerenciadas no metastore do Hive no Azure Databricks é a raiz do DBFS. Para impedir que os usuários finais que criam tabelas gerenciadas gravem na raiz do DBFS, declare um local no armazenamento externo ao criar bancos de dados no metastore do Hive.

As tabelas gerenciadas do Catálogo do Unity usam um local de armazenamento seguro por padrão. O Databricks recomenda usar o Catálogo do Unity para tabelas gerenciadas.

Usar o log de auditoria para monitorar a atividade

Observação

Para obter detalhes sobre eventos de auditoria do DBFS, consulte os eventos do DBFS.

Criptografar os dados raiz do DBFS com uma chave gerenciada pelo cliente

É possível criptografar dados raiz do DBFS com uma chave gerenciada pelo cliente. Confira Chaves gerenciadas pelo cliente para a raiz do DBFS