Share via


Nota sobre a versão GA do Catálogo do Unity

Importante

Esta documentação foi desativada e pode não estar atualizada. Não há mais suporte para os produtos, serviços ou tecnologias mencionados neste conteúdo. Veja O que é o Catálogo do Unity?.

25 de agosto de 2022

O Catálogo do Unity agora está em disponibilidade geral no Azure Databricks.

Este artigo descreve o Catálogo do Unity a partir da data de lançamento de GA. Ele se concentra principalmente nos recursos e atualizações adicionados ao Catálogo do Unity desde a Visualização Pública. Para saber mais sobre o Catálogo do Unity, confira O que é o Catálogo do Unity?. Para ver notas sobre a versão que descrevem as atualizações do Catálogo do Unity desde a GA, consulte Notas sobre a versão da plataforma do Azure Databricks e Notas de versão do Databricks Runtime: versões e compatibilidade.

Limites de metastore e cotas de recursos

Até 25 de agosto de 2022

  • Sua conta do Azure Databricks pode ter apenas um metastore por região
  • Um metastore pode ter até 1.000 catálogos.
  • Um catálogo pode ter até 10.000 esquemas.
  • Um Esquema pode ter até 10.000 tabelas.

Para saber as cotas atuais do Catálogo do Unity, consulte Cotas de recursos.

Formatos de armazenamento com suporte em GA

Até 25 de agosto de 2022:

  • Todas as tabelas gerenciadas do Catálogo do Unity armazenam dados com o Delta Lake
  • As tabelas externas do Catálogo do Unity e locais externos dão suporte a Delta Lake, JSON, CSV, Avro, Parquet, ORC e dados de texto.

Para obter os formatos de tabela compatíveis com o Catálogo do Unity atual, consulte Formatos de arquivo de dados com suporte.

Gerenciar recursos do Catálogo do Unity no console de contas

Use a interface do usuário do console de contas do Azure Databricks para:

Tipos de cluster com suporte e versões do Databricks Runtime

O Catálogo do Unity requer clusters que executem o Databricks Runtime 11.1 ou superior. O Catálogo do Unity tem suporte por padrão em todas as versões de computação do warehouse de SQL.

As versões anteriores do Databricks Runtime davam suporte a versões prévias do Catálogo do Unity. Os clusters em execução em versões anteriores do Databricks Runtime não oferecem suporte para todos os recursos e funcionalidades em GA do Catálogo do Unity.

O Catálogo do Unity exigirá um dos seguintes modos de acesso quando você cria um cluster:

  • Compartilhado
    • Linguagens: SQL ou Python
    • Um cluster seguro que pode ser compartilhado por vários usuários. Os usuários do cluster são totalmente isolados para que não possam ver os dados e as credenciais uns dos outros.
  • Um usuário
    • Linguagens: SQL, Scala, Python, R
    • Um cluster seguro que pode ser usado exclusivamente por um único usuário especificado.

Para obter mais informações sobre os modos de acesso do cluster, confira os modos de acesso.

Para obter informações sobre a funcionalidade atualizada do Catálogo do Unity em versões posteriores do Databricks Runtime, confira as notas sobre a versão dessas versões.

Tabelas do sistema

information_schema é totalmente compatível com ativos de dados do Catálogo do Unity. Cada metastore inclui um catálogo conhecido como system que inclui um metastore com escopo information_schema. Consulte Esquema de informações. Você pode usar information_schema para responder perguntas como as seguintes:

"Contar o número de tabelas por catálogo"

SELECT table_catalog, count(table_name)
FROM system.information_schema.tables
GROUP BY 1
ORDER by 2 DESC

"Mostre todas as tabelas que foram alteradas nas últimas 24 horas"

SELECT table_name, table_owner, created_by, last_altered, last_altered_by, table_catalog
FROM system.information_schema.tables
WHERE  datediff(now(), last_altered) < 1

Suporte ao streaming estruturado

Agora há suporte para cargas de trabalho de streaming estruturadas com o Catálogo do Unity. Para obter detalhes e limitações, consulte Limitações do Catálogo do Unity.

Também confira Usar o Catálogo do Unity com Fluxo Estruturado.

Funções do SQL

As funções SQL definidas pelo usuário agora têm suporte no Catálogo do Unity. Para obter informações sobre como criar e usar UDFs do SQL, consulte CREATE FUNCTION (SQL e Python).

Sintaxe SQL para locais externos no Catálogo do Unity

Agora há suporte para os comandos de linguagem de definição de dados e definição de dados padrão no Spark SQL para locais externos, incluindo o seguinte:

CREATE | DROP | ALTER | DESCRIBE | SHOW EXTERNAL LOCATION

Também é possível gerenciar e exibir permissões com GRANT, REVOKE e SHOW para locais externos com SQL. Confira Localizações externas.

Exemplo de sintaxe:

CREATE EXTERNAL LOCATION <your-location-name>
  URL `<your-location-path>'
  WITH (CREDENTIAL <your-credential-name>);

GRANT READ FILES, WRITE FILES, CREATE EXTERNAL TABLE ON EXTERNAL LOCATION `<your-location-name>`
  TO `finance`;

Limitações do Catálogo do Unity na GA

Até 25 de agosto de 2022, o Catálogo do Unity tinha as seguintes limitações. Para obter as limitações atuais, consulte Limitações do Catálogo do Unity.

  • A Escala, R e as cargas de trabalho usando o Machine Learning Runtime têm suporte apenas em clusters usando o modo de acesso único do usuário. As cargas de trabalho nessas linguagens não são suporte ao uso de exibições dinâmicas para fins de segurança em nível de linha ou de coluna.
  • Não há suporte para clones superficiais ao usar o Catálogo do Unity como origem ou destino do clone.
  • Não há suporte para o particionamento de memória em tabelas do Catálogo do Unity. Se você executar comandos que tentem criar uma tabela em bucket no Catálogo do Unity, uma exceção será gerada.
  • A gravação no mesmo caminho ou na tabela Delta Lake de workspaces em várias regiões pode resultar em um desempenho não confiável se alguns clusters acessarem o Catálogo do Unity e outros não.
  • O modo de substituição para operações de gravação de DataFrame no Catálogo do Unity tem suporte apenas para tabelas Delta e não para outros formatos de arquivo. O usuário deve ter o privilégio CREATE no esquema pai e deve ser o proprietário do objeto existente.
  • Atualmente, o serviço tem as seguintes limitações:
    • Não há suporte em clusters usando o modo de acesso compartilhado. Em cargas de trabalho de streaming, você deve usar o modo de acesso único do usuário.
    • Ainda não há suporte para o ponto de verificação assíncrono.
    • No Databricks Runtime versão 11.2 e inferiores, as consultas de fluxo que duram mais de 30 dias em clusters de trabalho ou para todas as finalidades, gerarão uma exceção. Para consultas de fluxo de execução prolongada, configure repetições automáticas de trabalho ou use o Databricks Runtime 11.3 e versões superiores.
  • Atualmente, não há suporte para fazer referência a tabelas do Catálogo do Unity de pipelines do Delta Live Tables.
  • Os grupos criados anteriormente em um workspace não podem ser usados em instruções GRANT do Catálogo do Unity. Isso serve para garantir uma exibição consistente de grupos que podem se estender entre workspaces. Para usar grupos em instruções de CONCESSÃO, crie seus grupos no console da conta e atualize qualquer automação para gerenciamento de entidade ou grupo, como conectores SCIM, Okta, Microsoft Entra ID (anteriormente Azure Active Directory) e Terraform, a fim de referenciar pontos de extremidade de conta em vez de pontos de extremidade em espaço de trabalho.

Regiões de disponibilidade do Catálogo do Unity na GA

Até 25 de agosto de 2022, o Catálogo do Unity estava disponível nas seguintes regiões. Para ver a lista das regiões com suporte no momento, confira Regiões com do Azure Databricks.

  • canadacentral
  • centralus
  • francecentral
  • germanywestcentral
  • japaneast
  • norwayeast
  • southafricanorth
  • swedencentral
  • switzerlandnorth
  • switzerlandwest
  • uaenorth
  • westcentralus
  • westus3
  • australiaeast
  • brazilsouth
  • centralindia
  • eastus
  • eastus2
  • koreacentral
  • northcentralus
  • northeurope
  • southeastasia
  • ukwest
  • westeurope
  • westus