Cargar datos mediante una ubicación externa de Unity Catalog

Importante

Esta característica está en versión preliminar pública.

En este artículo se describe cómo usar la interfaz de usuario de agregar datos para crear una tabla administrada a partir de datos en Azure Data Lake Storage Gen2 mediante una ubicación externa del catálogo de Unity. Una ubicación externa es un objeto que combina una ruta de acceso de almacenamiento en la nube con una credencial de almacenamiento que autoriza el acceso a dicha ruta.

Para conocer otros enfoques para cargar datos mediante ubicaciones externas, consulte Crear una tabla a partir de archivos almacenados en el inquilino en la nube.

Antes de empezar

Antes de empezar, debe disponer de lo siguiente:

Tipos de archivo

Se admiten los tipos de archivo siguientes:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Paso 1: Confirmar el acceso a la ubicación externa

Para confirmar el acceso a la ubicación externa, haga lo siguiente:

  1. En la barra lateral del área de trabajo de Azure Databricks, haga clic en Catálogo.
  2. En el Explorador de catálogo, haga clic en Datos externos>Ubicaciones externas.

Paso 2: crear la tabla administrada

Para crear la tabla administrada, haga lo siguiente:

  1. En la barra lateral del área de trabajo, haga clic en + Nuevo>Agregar datos.

  2. En la interfaz de usuario agregar datos, haga clic enAzure Data Lake Storage.

  3. Seleccione una ubicación externa en la lista desplegable.

  4. Seleccione las carpetas y los archivos que desea cargar en Azure Databricks y, a continuación, haga clic en Vista previa de la tabla.

  5. Seleccione un catálogo y un esquema en las listas desplegables.

  6. (Opcional) Edite el nombre de la tabla.

  7. (Opcional) Para establecer opciones de formato avanzado por tipo de archivo, haga clic en Atributos avanzados, desactive Detectar automáticamente el tipo de archivo y, a continuación, seleccione un tipo de archivo.

    Para obtener una lista de opciones de formato, consulte la sección siguiente.

  8. (Opcional) Para editar el nombre de la columna, haga clic en el cuadro de entrada situado en la parte superior de la columna.

    Los nombres de columna no admiten comas, barras diagonales inversas ni caracteres Unicode (como emojis).

  9. (Opcional) Para editar tipos de columnas, haga clic en el icono con el tipo.

  10. Haga clic en Crear tabla.

Opciones de formato de tipo de archivo

Las siguientes opciones de formato están disponibles, según el tipo de archivo:

Opción Formato Descripción Tipos de archivo admitidos
Column delimiter El carácter separador entre columnas. Solo se permite un solo carácter y no se admite la barra diagonal inversa.

El valor predeterminado es una coma.
CSV
Escape character Carácter de escape que se usará al analizar los datos.

El valor predeterminado es una comilla.
CSV
First row contains the header Esta opción especifica si el archivo contiene un encabezado.

Habilitado de forma predeterminada.
CSV
Automatically detect file type Detecte automáticamente el tipo de archivo. El valor predeterminado es true. XML
Automatically detect column types Detecta automáticamente tipos de columnas a partir del contenido del archivo. Puede editar tipos en la tabla de vista previa. Si se establece en false, todos los tipos de columna se deducen como CADENA.

Habilitado de forma predeterminada.
* CSV

* JSON
* XML
Rows span multiple lines Si el valor de una columna puede abarcar varias líneas del archivo.

Deshabilitado de forma predeterminada.
* CSV

* JSON
Merge the schema across multiple files Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo.

Habilitado de forma predeterminada.
CSV
Allow comments Si se permiten comentarios en el archivo.

Habilitado de forma predeterminada.
JSON
Allow single quotes Si se permiten comillas simples en el archivo.

Habilitado de forma predeterminada.
JSON
Infer timestamp Si se debe intentar inferir cadenas de marca de tiempo como TimestampType.

Habilitado de forma predeterminada.
JSON
Rescued data column Si desea guardar columnas que no coincidan con el esquema. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?.

Habilitado de forma predeterminada.
* CSV

* JSON
* Avro
* Parquet
Exclude attribute Si se excluyen los atributos en los elementos. El valor predeterminado es false. XML
Attribute prefix Prefijo de los atributos para diferenciar atributos y elementos. El valor predeterminado es _. XML

Tipos de datos de columna

Se admiten los siguientes tipos de datos de columna. Para obtener más información sobre los tipos de datos individuales, consulte tipos de datos de SQL.

Tipo de datos Descripción
BIGINT Un entero con signo de 8 bytes.
BOOLEAN Valores booleanos (true,false).
DATE y día, sin zona horaria.
DECIMAL (P,S) Números con máxima precisión P y escala fija S.
DOUBLE Números de punto flotante de precisión doble de 8 bytes.
STRING Valores de cadena de caracteres.
TIMESTAMP Valores que comprenden los valores de los campos año, mes, día, hora, minuto y segundo, con la zona horaria local de la sesión.

Problemas conocidos

  • Es posible que experimente problemas con caracteres especiales en tipos de datos complejos, como un objeto JSON con una clave que contiene una comilla invertida o dos puntos.
  • Es posible que algunos archivos JSON requieran que seleccione JSON manualmente para el tipo de archivo. Para seleccionar manualmente un tipo de archivo después de seleccionar archivos, haga clic en Atributos avanzados, desactive Detectar automáticamente el tipo de archivo y, a continuación, seleccione JSON.
  • Las marcas de tiempo anidadas y los decimales dentro de tipos complejos pueden surgir problemas.