Crear o modificar una tabla mediante la carga de archivos

Artículo
03/01/2024

La páginaCrear o modificar una tabla mediante la carga de archivos permite cargar archivos CSV, TSV o JSON, Avro, Parquet o archivos de texto para crear o sobrescribir una tabla de Delta Lake administrada.

Puede crear tablas Delta administradas en el catálogo de Unity o en el metastore de Hive.

Nota:

También puede cargar archivos desde el almacenamiento en la nube mediante la interfaz de usuario de adición de datos o mediante COPY INTO.

Importante

Debe tener acceso a un recurso de proceso en ejecución y permisos para crear tablas en un esquema de destino.
Los administradores del área de trabajo pueden deshabilitar la página Crear o modificar una tabla mediante la carga de archivos.

Puede usar la interfaz de usuario para crear una tabla Delta mediante la importación de archivos CSV, TSV, JSON, Avro, Parquet o texto desde la máquina local.

La página Crear o modificar una tabla mediante la carga de archivos admite la carga de hasta 10 archivos a la vez.
El tamaño total de los archivos cargados debe ser inferior a los 2 gigabytes.
El archivo debe ser un archivo CSV, TSV, JSON, Avro, Parquet o text y tener la extensión ".csv", ".tsv" (o ".tab"), ".json", ".avro", ".parquet" o ".txt".
No se admiten archivos comprimidos como zip y tar.

Carga del archivo

Haga clic en Nuevo > Agregar datos.
Haga clic en Crear o modificar una tabla.
Haga clic en el botón para examinar archivos o arrastre y coloque archivos directamente en la zona de colocación.

Nota:

Los archivos importados se cargan en una ubicación interna segura dentro de su cuenta, que es recolección de elementos no utilizados diariamente.

Vista previa, configuración y creación de una tabla

Puede cargar datos en el área de almacenamiento provisional sin conectarse a recursos de proceso, pero debe seleccionar un recurso de proceso activo para obtener una vista previa y configurar la tabla.

Puede obtener una vista previa de 50 filas de los datos al configurar las opciones de la tabla cargada. Haga clic en los botones de cuadrícula o lista en el nombre de archivo para cambiar la presentación de los datos.

Azure Databricks almacena archivos de datos para tablas administradas en las ubicaciones configuradas para el esquema contenedor. Necesita permisos adecuados para crear una tabla en un esquema.

Seleccione el esquema deseado con el que se creará la tabla. Para ello, haga lo siguiente:

(Solo para áreas de trabajo habilitadas para el catálogo de Unity) Puede seleccionar un catálogo o el hive_metastore heredado.
Seleccionar un esquema.
(Opcional) Edite el nombre de la tabla.

Nota:

Puede usar la lista desplegable para seleccionar Sobrescribir la tabla existente o Crear nueva tabla. Las operaciones que intentan crear nuevas tablas con conflictos de nombre muestran un mensaje de error.

Puede configurar opciones o columnas antes de crear la tabla.

Para crear la tabla, haga clic en Crear en la parte inferior de la página.

Opciones de formato

Las opciones de formato dependen del formato de archivo que cargue. Las opciones de formato comunes aparecen en la barra de encabezado, mientras que las opciones menos usadas están disponibles en el cuadro de diálogo Atributos avanzados.

Para CSV, están disponibles las siguientes opciones:
- La primera fila contiene el encabezado (habilitado de manera predeterminada): esta opción especifica si el archivo CSV/TSV contiene un encabezado.
- Delimitador de columna: el carácter separador entre columnas. Solo se permite un solo carácter y no se admite la barra diagonal inversa. Este valor predeterminado es coma para los archivos csv.
- Detectar automáticamente los tipos de columna (habilitados de manera predeterminada): detecte automáticamente los tipos de columna del contenido del archivo. Puede editar tipos en la tabla de vista previa. Si se establece en false, todos los tipos de columna se deducen como STRING.
- Las filas abarcan varias líneas (deshabilitadas de manera predeterminada): si el valor de una columna puede abarcar varias líneas en el archivo.
- Fusionar mediante combinación el esquema en varios archivos: Si se debe inferir el esquema en varios archivos y combinar el esquema de cada archivo. Si está deshabilitado, se usa el esquema de un archivo.
Para JSON, están disponibles las siguientes opciones:
- Detectar automáticamente los tipos de columna (habilitados de manera predeterminada): detecte automáticamente los tipos de columna del contenido del archivo. Puede editar tipos en la tabla de vista previa. Si se establece en false, todos los tipos de columna se deducen como STRING.
- Las filas abarcan varias líneas (habilitada de manera predeterminada): indica si el valor de una columna puede abarcar varias líneas en el archivo.
- Permitir comentarios (habilitada de forma predeterminada): indica si se permiten comentarios en el archivo.
- Permitir comillas simples (habilitada de forma predeterminada): indica si se permiten comillas simples en el archivo.
- Inferencia de marca de tiempo (habilitada de forma predeterminada): indica si se deben intentar inferir cadenas de marca de tiempo como TimestampType.
Para JSON, están disponibles las siguientes opciones:
- Detectar automáticamente los tipos de columna (habilitados de manera predeterminada): detecte automáticamente los tipos de columna del contenido del archivo. Puede editar tipos en la tabla de vista previa. Si se establece en false, todos los tipos de columna se deducen como STRING.
- Las filas abarcan varias líneas (deshabilitadas de manera predeterminada): si el valor de una columna puede abarcar varias líneas en el archivo.
- Permitir comentarios Indica si se permiten comentarios en el archivo.
- Permitir comillas simples: indica si se permiten comillas simples en el archivo.
- inferencia de marca de tiempo: indica si se deben intentar deducir cadenas de marca de tiempo como TimestampType.

La vista previa de datos se actualiza automáticamente al editar las opciones de formato.

Nota:

Al cargar varios archivos, se aplican las reglas siguientes:

La configuración de encabezado se aplica a todos los archivos. Asegúrese de que los encabezados están ausentes o presentes de forma coherente en todos los archivos cargados para evitar la pérdida de datos.
Los archivos cargados se combinan anexando todos los datos como filas de la tabla de destino. No se admite la combinación o unión de registros durante la carga de archivos.

Tipos y nombres de columna

Puede editar los nombres y tipos de columna.

Para editar tipos, haga clic en el icono con el tipo.

Nota:

No se pueden editar tipos anidados para STRUCT o ARRAY.
Para editar el nombre de la columna, haga clic en el cuadro de entrada situado en la parte superior de la columna.

Los nombres de columna no admiten comas, barras diagonales inversas ni caracteres Unicode (como emojis).

En el caso de los archivos CSV y JSON, los tipos de datos de columna se deducen de forma predeterminada. Para interpretar todas las columnas como de tipo STRING deshabilitando Atributos avanzados>Detectar tipos de columna de forma automática.

Nota:

La inferencia de esquemas realiza una mejor detección de tipos de columnas. El cambio de los tipos de columna puede provocar que determinados valores se conviertan a NULL si el valor no se puede convertir correctamente al tipo de datos de destino. No se admite la conversión de BIGINT en las columnas DATE o TIMESTAMP. Databricks recomienda crear primero una tabla y luego transformar estas columnas mediante funciones SQL.
Para admitir nombres de columna de tabla con caracteres especiales, la página Crear o modificar una tabla mediante la carga de archivos aprovecha la asignación de columnas.
Para agregar comentarios a las columnas, cree la tabla y vaya a Explorador de catálogo donde puede agregar comentarios.

Tipos de datos admitidos

La página Crear o modificar una tabla mediante la carga de archivos admite los siguientes tipos de datos. Para obtener más información sobre los tipos de datos individuales, consulte tipos de datos de SQL.

Tipo de datos	Descripción
`BIGINT`	Un entero con signo de 8 bytes.
`BOOLEAN`	Valores booleanos (`true`,`false`).
`DATE`	Valores que comprenden valores de los campos año, mes y día, sin zona horaria.
`DOUBLE`	Números de punto flotante de precisión doble de 8 bytes.
`STRING`	Valores de cadena de caracteres.
`TIMESTAMP`	Valores que comprenden los valores de los campos año, mes, día, hora, minuto y segundo, con la zona horaria local de la sesión.
`STRUCT`	Valores con la estructura descrita por una secuencia de campos.
`ARRAY`	Valores que componen una secuencia de elementos con el tipo `elementType`.
`DECIMAL(P,S)`	Números con máxima precisión `P` y escala fija `S`.

Problemas conocidos

La conversión de BIGINT a tipos que no se pueden convertir como DATE, como fechas con el formato "aaaa", puede desencadenar errores.

Crear o modificar una tabla mediante la carga de archivos

Carga del archivo

Vista previa, configuración y creación de una tabla

Opciones de formato

Tipos y nombres de columna

Tipos de datos admitidos

Problemas conocidos

Recursos adicionales