Cargar datos mediante una ubicación externa de Unity Catalog

Artículo
03/01/2024

Importante

Esta característica está en versión preliminar pública.

En este artículo se describe cómo usar la interfaz de usuario de agregar datos para crear una tabla administrada a partir de datos en Azure Data Lake Storage Gen2 mediante una ubicación externa del catálogo de Unity. Una ubicación externa es un objeto que combina una ruta de acceso de almacenamiento en la nube con una credencial de almacenamiento que autoriza el acceso a dicha ruta.

Para conocer otros enfoques para cargar datos mediante ubicaciones externas, consulte Crear una tabla a partir de archivos almacenados en el inquilino en la nube.

Antes de empezar

Antes de empezar, debe disponer de lo siguiente:

Un área de trabajo con Unity Catalog habilitado. Para más información, consulte Configuración y administración de Unity Catalog.
Privilegio READ FILES en la ubicación externa. Para más información, consulte Creación de una ubicación externa para conectar el almacenamiento en la nube a Azure Databricks.
El privilegio CREATE TABLE sobre el esquema en el que desea crear la tabla administrada, el privilegio USE SCHEMA sobre el esquema y el privilegio USE CATALOG sobre el catálogo principal. Para obtener más información, consulte Privilegios y objetos protegibles de Unity Catalog.

Tipos de archivo

Se admiten los tipos de archivo siguientes:

CSV
TSV
JSON
XML
AVRO
Parquet

Paso 1: Confirmar el acceso a la ubicación externa

Para confirmar el acceso a la ubicación externa, haga lo siguiente:

En la barra lateral del área de trabajo de Azure Databricks, haga clic en Catálogo.
En el Explorador de catálogo, haga clic en Datos externos>Ubicaciones externas.

Paso 2: crear la tabla administrada

Para crear la tabla administrada, haga lo siguiente:

En la barra lateral del área de trabajo, haga clic en + Nuevo>Agregar datos.
En la interfaz de usuario agregar datos, haga clic enAzure Data Lake Storage.
Seleccione una ubicación externa en la lista desplegable.
Seleccione las carpetas y los archivos que desea cargar en Azure Databricks y, a continuación, haga clic en Vista previa de la tabla.
Seleccione un catálogo y un esquema en las listas desplegables.
(Opcional) Edite el nombre de la tabla.
(Opcional) Para establecer opciones de formato avanzado por tipo de archivo, haga clic en Atributos avanzados, desactive Detectar automáticamente el tipo de archivo y, a continuación, seleccione un tipo de archivo.

Para obtener una lista de opciones de formato, consulte la sección siguiente.
(Opcional) Para editar el nombre de la columna, haga clic en el cuadro de entrada situado en la parte superior de la columna.

Los nombres de columna no admiten comas, barras diagonales inversas ni caracteres Unicode (como emojis).
(Opcional) Para editar tipos de columnas, haga clic en el icono con el tipo.
Haga clic en Crear tabla.

Opciones de formato de tipo de archivo

Las siguientes opciones de formato están disponibles, según el tipo de archivo:

Opción Formato	Descripción	Tipos de archivo admitidos
`Column delimiter`	El carácter separador entre columnas. Solo se permite un solo carácter y no se admite la barra diagonal inversa. El valor predeterminado es una coma.	CSV
`Escape character`	Carácter de escape que se usará al analizar los datos. El valor predeterminado es una comilla.	CSV
`First row contains the header`	Esta opción especifica si el archivo contiene un encabezado. Habilitado de forma predeterminada.	CSV
`Automatically detect file type`	Detecte automáticamente el tipo de archivo. El valor predeterminado es `true`.	XML
`Automatically detect column types`	Detecta automáticamente tipos de columnas a partir del contenido del archivo. Puede editar tipos en la tabla de vista previa. Si se establece en false, todos los tipos de columna se deducen como CADENA. Habilitado de forma predeterminada.	* CSV * JSON * XML
`Rows span multiple lines`	Si el valor de una columna puede abarcar varias líneas del archivo. Deshabilitado de forma predeterminada.	* CSV * JSON
`Merge the schema across multiple files`	Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. Habilitado de forma predeterminada.	CSV
`Allow comments`	Si se permiten comentarios en el archivo. Habilitado de forma predeterminada.	JSON
`Allow single quotes`	Si se permiten comillas simples en el archivo. Habilitado de forma predeterminada.	JSON
`Infer timestamp`	Si se debe intentar inferir cadenas de marca de tiempo como `TimestampType`. Habilitado de forma predeterminada.	JSON
`Rescued data column`	Si desea guardar columnas que no coincidan con el esquema. Para obtener más información, consulte ¿Qué es la columna de datos rescatados?. Habilitado de forma predeterminada.	* CSV * JSON * Avro * Parquet
`Exclude attribute`	Si se excluyen los atributos en los elementos. El valor predeterminado es `false`.	XML
`Attribute prefix`	Prefijo de los atributos para diferenciar atributos y elementos. El valor predeterminado es `_`.	XML

Tipos de datos de columna

Se admiten los siguientes tipos de datos de columna. Para obtener más información sobre los tipos de datos individuales, consulte tipos de datos de SQL.

Tipo de datos	Descripción
`BIGINT`	Un entero con signo de 8 bytes.
`BOOLEAN`	Valores booleanos (`true`,`false`).
`DATE`	y día, sin zona horaria.
`DECIMAL (P,S)`	Números con máxima precisión `P` y escala fija `S`.
`DOUBLE`	Números de punto flotante de precisión doble de 8 bytes.
`STRING`	Valores de cadena de caracteres.
`TIMESTAMP`	Valores que comprenden los valores de los campos año, mes, día, hora, minuto y segundo, con la zona horaria local de la sesión.

Problemas conocidos

Es posible que experimente problemas con caracteres especiales en tipos de datos complejos, como un objeto JSON con una clave que contiene una comilla invertida o dos puntos.
Es posible que algunos archivos JSON requieran que seleccione JSON manualmente para el tipo de archivo. Para seleccionar manualmente un tipo de archivo después de seleccionar archivos, haga clic en Atributos avanzados, desactive Detectar automáticamente el tipo de archivo y, a continuación, seleccione JSON.
Las marcas de tiempo anidadas y los decimales dentro de tipos complejos pueden surgir problemas.