Criar ou modificar uma tabela usando o upload de arquivo

A página Criar ou modificar uma tabela usando o upload de arquivos permite que você carregue arquivos CSV, TSV ou JSON, Avro, Parquet ou texto para criar ou substituir uma tabela Delta Lake gerenciada.

Você pode criar tabelas Delta gerenciadas no Unity Catalog ou no metastore do Hive.

Nota

Você também pode carregar arquivos do armazenamento em nuvem usando a interface do usuário add data ouCOPY INTO.

Importante

  • Você deve ter acesso a um recurso de computação em execução e permissões para criar tabelas em um esquema de destino.
  • Os administradores do espaço de trabalho podem desativar a página Criar ou modificar uma tabela usando o carregamento de arquivos.

Você pode usar a interface do usuário para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet ou de texto de sua máquina local.

  • A página Criar ou modificar uma tabela usando o upload de arquivos suporta o upload de até 10 arquivos de cada vez.
  • O tamanho total dos ficheiros carregados tem de ser inferior a 2 gigabytes.
  • O arquivo deve ser um CSV, TSV, JSON, Avro, Parquet ou arquivo de texto e ter a extensão ".csv", ".tsv" (ou ".tab"), ".json", ".avro", ".parquet" ou ".txt".
  • Arquivos compactados, como zip e tar arquivos, não são suportados.

Carregue o ficheiro

  1. Clique em New IconNovo > Adicionar dados.
  2. Clique em Criar ou modificar uma tabela.
  3. Clique no botão do navegador de arquivos ou arraste e solte arquivos diretamente na zona de soltar.

Nota

Os ficheiros importados são carregados para um local interno seguro dentro da sua conta, que é o lixo recolhido diariamente.

Pré-visualizar, configurar e criar uma tabela

Você pode carregar dados para a área de preparo sem se conectar a recursos de computação, mas deve selecionar um recurso de computação ativo para visualizar e configurar sua tabela.

Você pode visualizar 50 linhas de seus dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista abaixo do nome do arquivo para alternar a apresentação de seus dados.

O Azure Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema que contém. Você precisa de permissões adequadas para criar uma tabela em um esquema.

Selecione o esquema desejado no qual criar uma tabela fazendo o seguinte:

  1. (Somente para espaços de trabalho habilitados para Unity Catalog) Você pode selecionar um catálogo ou o legado hive_metastore.
  2. Selecione um esquema.
  3. (Opcional) Edite o nome da tabela.

Nota

Você pode usar a lista suspensa para selecionar Substituir tabela existente ou Criar nova tabela. As operações que tentam criar novas tabelas com conflitos de nome exibem uma mensagem de erro.

Você pode configurar opções ou colunas antes de criar a tabela.

Para criar a tabela, clique em Criar na parte inferior da página.

Opções de formato

As opções de formato dependem do formato de ficheiro carregado. As opções de formato comuns aparecem na barra de cabeçalho, enquanto as opções menos usadas estão disponíveis na caixa de diálogo Atributos avançados .

  • Para CSV, as seguintes opções estão disponíveis:
    • A primeira linha contém o cabeçalho (ativado por padrão): esta opção especifica se o arquivo CSV/TSV contém um cabeçalho.
    • Delimitador de coluna: O caractere separador entre colunas. Apenas um único caractere é permitido, e a barra invertida não é suportada. O padrão é vírgula para arquivos CSV.
    • Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (desabilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Mesclar o esquema em vários arquivos: se deseja inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desativado, o esquema de um arquivo é usado.
  • Para JSON, as seguintes opções estão disponíveis:
    • Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (habilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Permitir comentários (ativado por padrão): se os comentários são permitidos no arquivo.
    • Permitir aspas simples (habilitado por padrão): se aspas únicas são permitidas no arquivo.
    • Inferir carimbo de data/hora (habilitado por padrão): se deseja tentar inferir cadeias de caracteres de carimbo de data/hora como TimestampType.
  • Para JSON, as seguintes opções estão disponíveis:
    • Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (desabilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Permitir comentários Se os comentários são permitidos no arquivo.
    • Permitir aspas simples: se aspas simples são permitidas no arquivo.
    • Inferir carimbo de data/hora: se deve tentar inferir cadeias de caracteres de carimbo de data/hora como TimestampType.

A visualização de dados é atualizada automaticamente quando você edita as opções de formato.

Nota

Quando carrega vários ficheiros, aplicam-se as seguintes regras:

  • As configurações de cabeçalho se aplicam a todos os arquivos. Certifique-se de que os cabeçalhos estão consistentemente ausentes ou presentes em todos os arquivos carregados para evitar a perda de dados.
  • Os arquivos carregados são combinados anexando todos os dados como linhas na tabela de destino. Não há suporte para a junção ou mesclagem de registros durante o upload de arquivos.

Nomes e tipos de colunas

Você pode editar nomes e tipos de coluna.

  • Para editar tipos, clique no ícone com o tipo.

    Nota

    Não é possível editar tipos aninhados para STRUCT ou ARRAY.

  • Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

    Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres unicode (como emojis).

Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como STRING tipo desativando Atributos>avançados Detetar automaticamente tipos de coluna.

Nota

  • A inferência de esquema faz um melhor esforço de deteção de tipos de coluna. A alteração dos tipos de coluna pode levar a que alguns valores sejam convertidos se NULL o valor não puder ser convertido corretamente para o tipo de dados de destino. Não há suporte para BIGINT transmissão em DATE ou TIMESTAMP colunas. O Databricks recomenda que você crie uma tabela primeiro e, em seguida, transforme essas colunas usando funções SQL depois.
  • Para dar suporte a nomes de colunas de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando o carregamento de arquivo aproveita o Mapeamento de Coluna.
  • Para adicionar comentários a colunas, crie a tabela e navegue até o Gerenciador de Catálogos , onde você pode adicionar comentários.

Tipos de dados suportados

A página Criar ou modificar uma tabela usando o carregamento de arquivo suporta os seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.

Tipo de Dados Description
BIGINT Números inteiros assinados de 8 bytes.
BOOLEAN Valores booleanos (true, false).
DATE Valores que compreendem valores de campos ano, mês e dia, sem fuso horário.
DOUBLE Números de ponto flutuante de precisão dupla de 8 bytes.
STRING Valores de cadeia de caracteres.
TIMESTAMP Valores que compreendem valores de campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.
STRUCT Valores com a estrutura descrita por uma sequência de campos.
ARRAY Valores que compreendem uma sequência de elementos com o tipo
elementType.
DECIMAL(P,S) Números com a máxima precisão P e escala Sfixa.

Problemas conhecidos

A transmissão para tipos não passíveis de transmissão BIGINT , como DATE, como datas no formato de aaaa, pode desencadear erros.