Carregar dados usando um local externo do Catálogo do Unity

Artigo
03/01/2024

Importante

Esse recurso está em uma versão prévia.

Este artigo descreve como usar a interface do usuário de adição de dados para criar uma tabela gerenciada a partir de dados no Azure Data Lake Storage Gen2 usando um local externo do Unity Catalog. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.

Para ver outras abordagens para carregar dados usando locais externos, consulte Criar uma tabela de arquivos armazenados em seu locatário de nuvem.

Antes de começar

Antes de começar, você deverá ter o seguinte:

Um workspace com o Unity Catalog habilitado. Para obter mais informações, confira Configurar e gerenciar o Catálogo do Unity.
O privilégio READ FILES no local externo. Para obter mais informações, confira Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.
O privilégio CREATE TABLE no esquema no qual você deseja criar a tabela gerenciada, o privilégio USE SCHEMA no esquema e o privilégio USE CATALOG no catálogo pai. Para obter mais informações, confira Privilégios e objetos protegíveis do Catálogo do Unity.

Tipos de arquivo

Há suporte para os seguintes tipos de arquivo:

CSV
TSV
JSON
XML
AVRO
Parquet

Etapa 1: Confirmar o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

Na barra lateral do seu workspace do Azure Databricks, clique em Catálogo.
No Catalog Explorer, clique em Dados Externos>Locais Externos.

Etapa 2: Criar a tabela gerenciada

Para criar a tabela gerenciada, faça o seguinte:

Na barra lateral do seu workspace, clique em + Novo>Adicionar dados.
Na interface do usuário de adição de dados, clique em Azure Data Lake Storage.
Selecione um local externo na lista suspensa.
Selecione as pastas e os arquivos que você deseja carregar no Azure Databricks e clique em Visualizar tabela.
Selecione um catálogo e um esquema nas listas suspensas.
(Opcional) Edite o nome da tabela.
(Opcional) Para definir opções de formato avançadas por tipo de arquivo, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione um tipo de arquivo.

Para obter uma lista de opções de formato, consulte a seção a seguir.
(Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior dela.

Os nomes das colunas não dão suporte a vírgulas, barras invertidas nem caracteres Unicode (como emojis).
(Opcional) Para editar tipos de coluna, clique no ícone com o tipo.
Clique em Criar tabela.

Opções de formato de tipo de arquivo

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção de formato	Descrição	Tipos de arquivo com suporte
`Column delimiter`	O caractere separador entre colunas. Apenas um caractere é permitido e não há suporte para barra invertida. O padrão é uma vírgula.	CSV
`Escape character`	O caractere de escape a ser usado ao analisar os dados. O padrão é uma aspa.	CSV
`First row contains the header`	Essa opção especifica se o arquivo contém um cabeçalho. Habilitada por padrão.	CSV
`Automatically detect file type`	Detecta automaticamente o tipo de arquivo. O padrão é `true`.	XML
`Automatically detect column types`	Detectar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING. Habilitada por padrão.	* CSV * JSON * XML
`Rows span multiple lines`	Se o valor de uma coluna pode abranger várias linhas no arquivo. Desabilitado por padrão.	* CSV * JSON
`Merge the schema across multiple files`	Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitada por padrão.	CSV
`Allow comments`	Se os comentários são permitidos no arquivo. Habilitada por padrão.	JSON
`Allow single quotes`	Se aspas simples são permitidas no arquivo. Habilitada por padrão.	JSON
`Infer timestamp`	Se deseja tentar inferir as cadeias de caracteres de carimbo de data/hora como `TimestampType`. Habilitada por padrão.	JSON
`Rescued data column`	Se deseja salvar colunas que não correspondem ao esquema. Para obter mais informações, consulte O que é a coluna de dados resgatados. Habilitada por padrão.	* CSV * JSON * Avro * Parquet
`Exclude attribute`	Se deve excluir os atributos em elementos. O padrão é `false`.	XML
`Attribute prefix`	O prefixo dos atributos para diferenciar atributos e elementos. O padrão é `_`.	XML

Tipos de dados de coluna

Há suporte para os seguintes tipos de dados de coluna. Para obter mais informações sobre tipos de dados individuais, consulte tipos de dados SQL.

Tipo de Dados	Descrição
`BIGINT`	Números inteiros com sinal de 8 bytes.
`BOOLEAN`	Valores boolianos (`true`, `false`).
`DATE`	e dia, sem um fuso horário.
`DECIMAL (P,S)`	Número com precisão máxima `P` e escala fixa `S`.
`DOUBLE`	Números de ponto flutuante de precisão dupla de 8 bytes.
`STRING`	Valores de cadeia de caracteres.
`TIMESTAMP`	Valores que incluem valores de campos de ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

Você pode enfrentar problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave que contém um acento grave ou dois-pontos.
Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar um tipo de arquivo depois de selecionar arquivos, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione JSON.
Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.

Share via