Share via


Conecte-se ao armazenamento de objetos na nuvem usando o Unity Catalog

Este artigo fornece uma visão geral das configurações de conexão de armazenamento em nuvem necessárias para trabalhar com dados usando o Unity Catalog.

A Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados armazenados no armazenamento de objetos na nuvem. O Unity Catalog fornece um conjunto de ferramentas para configurar conexões seguras com o armazenamento de objetos na nuvem. Essas conexões fornecem acesso para concluir as seguintes ações:

  • Ingerir dados brutos em uma casa de lago.
  • Crie e leia tabelas gerenciadas em armazenamento seguro na nuvem.
  • Registre ou crie tabelas externas contendo dados tabulares.
  • Ler e gravar dados não estruturados.

Aviso

Não dê aos usuários finais acesso em nível de armazenamento a tabelas ou volumes gerenciados pelo Unity Catalog. Isso compromete a segurança e a governança dos dados.

Conceder aos usuários acesso direto no nível de armazenamento ao armazenamento de local externo no Azure Data Lake Storage Gen2 não honra quaisquer permissões concedidas ou auditorias mantidas pelo Unity Catalog. O acesso direto ignorará auditoria, linhagem e outros recursos de segurança e monitoramento do Unity Catalog, incluindo controle de acesso e permissões. Você é responsável por gerenciar o acesso direto ao armazenamento por meio do Azure Data Lake Storage Gen2 e garantir que os usuários tenham as permissões apropriadas concedidas por meio da Malha.

Evite todos os cenários que concedem acesso direto de gravação no nível de armazenamento para buckets que armazenam tabelas gerenciadas do Databricks. Modificar, excluir ou evoluir quaisquer objetos diretamente através do armazenamento que foram originalmente gerenciados pelo Unity Catalog pode resultar em corrupção de dados.

Nota

Se seu espaço de trabalho foi criado antes de 9 de novembro de 2023, ele pode não estar habilitado para o Catálogo Unity. Um administrador de conta deve habilitar o Catálogo Unity para seu espaço de trabalho. Consulte Habilitar um espaço de trabalho para o Catálogo Unity.

Como o Unity Catalog conecta o armazenamento de objetos ao Azure Databricks?

O Azure Databricks suporta contêineres do Azure Data Lake Storage Gen2 e buckets do Cloudflare R2 (Visualização Pública) como locais de armazenamento em nuvem para dados e ativos de IA registrados no Catálogo Unity. O R2 destina-se principalmente a casos de uso em que você deseja evitar taxas de saída de dados, como o Compartilhamento Delta entre nuvens e regiões. Para obter mais informações, consulte Usar réplicas do Cloudflare R2 ou migrar o armazenamento para o R2.

Para gerenciar o acesso ao armazenamento em nuvem subjacente que contém tabelas e volumes, o Unity Catalog usa os seguintes tipos de objeto:

  • Uma credencial de armazenamento representa um mecanismo de autenticação e autorização para acessar dados armazenados em seu locatário de nuvem, usando uma identidade gerenciada do Azure ou uma entidade de serviço para contêineres do Azure Data Lake Storage Gen2 ou um token de API R2 para buckets do Cloudflare R2. Cada credencial de armazenamento está sujeita às políticas de controle de acesso do Catálogo Unity que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a uma credencial de armazenamento no Unity Catalog, a solicitação falhará e o Unity Catalog não tentará autenticar seu locatário de nuvem em nome do usuário. A permissão para criar credenciais de armazenamento só deve ser concedida a usuários que precisam definir locais externos. Consulte Criar uma credencial de armazenamento para se conectar ao Azure Data Lake Storage Gen2 e Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.

  • Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem. Cada local de armazenamento está sujeito às políticas de controle de acesso do Catálogo Unity que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a um local de armazenamento no Unity Catalog, a solicitação falhará e o Unity Catalog não tentará autenticar seu locatário de nuvem em nome do usuário. A permissão para criar e usar locais externos só deve ser concedida a usuários que precisem criar tabelas externas, volumes externos ou locais de armazenamento gerenciados. Consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.

    Os locais externos são usados para ativos de dados externos, como tabelas externas e volumes externos, e para ativos de dados gerenciados, como tabelas gerenciadas e volumes gerenciados. Para obter mais informações sobre a diferença, consulte Tabelas e volumes.

    Quando um local externo é usado para armazenar tabelas gerenciadas e volumes gerenciados, ele é chamado de local de armazenamento gerenciado. Os locais de armazenamento gerenciado podem existir no nível de metastore, catálogo ou esquema. O Databricks recomenda a configuração de locais de armazenamento gerenciado no nível do catálogo. Se precisar de um isolamento mais granular, você pode especificar locais de armazenamento gerenciado no nível do esquema. Os espaços de trabalho habilitados para o Unity Catalog automaticamente não têm armazenamento no nível do metastore por padrão, mas você pode especificar um local de armazenamento gerenciado no nível do metastore para fornecer o local padrão quando nenhum armazenamento no nível do catálogo estiver definido. Os espaços de trabalho habilitados para o Unity Catalog recebem manualmente um local de armazenamento gerenciado no nível de metastore por padrão. Consulte Especificar um local de armazenamento gerenciado nas práticas recomendadas do Unity Catalog e do Unity Catalog.

Os volumes são o objeto protegível que a maioria dos usuários do Azure Databricks deve usar para interagir diretamente com dados não tabulares no armazenamento de objetos na nuvem. Consulte Criar e trabalhar com volumes.

Nota

Enquanto o Unity Catalog suporta acesso baseado em caminho a tabelas externas e volumes externos usando URIs de armazenamento em nuvem, o Databricks recomenda que os usuários leiam e gravem todas as tabelas do Unity Catalog usando nomes de tabelas e acessem dados em volumes usando /Volumes caminhos.

Próximos passos

Se você está apenas começando a usar o Catálogo Unity como administrador, consulte Configurar e gerenciar o Catálogo Unity.

Se você for um novo usuário e seu espaço de trabalho já estiver habilitado para o Catálogo Unity, consulte Tutorial: Criar sua primeira tabela e conceder privilégios.