Notas de la versión de Databricks SQL

Importante

Esta característica está en versión preliminar pública. Para solicitar acceso, póngase en contacto con un representante de Azure Databricks.

8 de julio de 2021

  • Los widgets de visualización de los paneles ahora tienen títulos y descripciones para que pueda adaptar el título y la descripción de las visualizaciones que se usan en distintos paneles al propio panel.
  • La barra lateral se ha actualizado para mejorar la visibilidad y la navegación:
    • Los puntos de conexión ahora son puntos de conexión de SQL y el nombre Historial cambia a Historial de consultas.
    • La configuración de la cuenta (antes llamada Usuarios) se ha movido a icono Cuenta SQL Cuenta. Al seleccionar Cuenta, puede cambiar el área de trabajo de Azure Databricks y cerrar sesión.
    • La configuración de usuario se ha movido a icono Configuración de usuario Configuración y se ha dividido en Configuración de usuario y Consola de administración de SQL. La Consola de administración de SQL solo es visible para los administradores.
    • El icono de ayuda ha cambiado a Icono de ayuda.

1 de julio de 2021

  • El nuevo explorador de datos permite explorar y administrar fácilmente los permisos en bases de datos y tablas. Los usuarios pueden ver los detalles del esquema, obtener una vista previa de los datos de ejemplo y ver los detalles y las propiedades de la tabla. Los administradores pueden ver y cambiar los propietarios de objetos de datos, y los propietarios de objetos de datos pueden conceder y revocar permisos. Para más información, consulte Explorador de datos.
  • Los ejes Y de los gráficos horizontales se han actualizado para reflejar el mismo orden que en las tablas. Si ha seleccionado previamente el orden inverso, puede usar el botón de alternancia Reverse Order (Orden inverso) en la pestaña del eje Y para invertir la nueva ordenación.

23 de junio de 2021

  • Ahora se admiten vistas temporales.

17 de junio de 2021

  • Photon, el nuevo motor de ejecución vectorizado de Databricks, ahora está activo de manera predeterminada para los puntos de conexión de SQL creados recientemente (interfaz de usuario y API REST). Photon acelera de forma transparente:
    • Las escrituras en tablas Parquet y Delta.
    • Muchas consultas SQL. Consulte Limitaciones.
  • Administre fácilmente usuarios y grupos con los comandos CREATE GROUP, DROP GROUP, ALTER GROUP, SHOW GROUPS y SHOW USERS. Para más información, consulte Instrucciones de seguridad e Instrucciones de mostrar.
  • El explorador de esquemas del editor de consultas es más ágil y rápido en bases de datos con más de 100 tablas. En estas bases de datos, el explorador de esquemas no cargará todas las columnas automáticamente; la lista de tablas se muestra como de costumbre, pero las columnas solo se cargan al hacer clic en una tabla. Este cambio afecta a la función autocompletar de las consultas en el editor de consultas, ya que depende de esta información para mostrar sugerencias. Hasta que expanda una tabla y cargue sus columnas, esas sugerencias no estarán disponibles.

3 de junio de 2021

26 de mayo de 2021

  • Se ha cambiado el nombre de SQL Analytics a Databricks SQL. Este cambio tiene los siguientes impactos de cara al cliente:
    • Se han actualizado las referencias de la interfaz de usuario web.

    • Se ha cambiado el nombre del derecho para conceder acceso a Databricks SQL:

      • Interfaz de usuario: Acceso a Databricks SQL access (anteriormente Acceso a SQL Analytics)
      • API de SCIM: databricks-sql-access (anteriormente sql-analytics-access)

      Los usuarios, grupos y entidades de servicio con el derecho anterior se han migrado al nuevo derecho.

    • Las etiquetas de los eventos de registro de auditoría relacionadas con Databricks SQL han cambiado:

      • El prefijo de los eventos de Databricks SQL ahora es databrickssql.
      • changeSqlAnalyticsAcl ahora es changeDatabricksSqlAcl.
  • Actualizaciones del panel
    • El nombre de archivo de exportación del panel se ha actualizado para que sea el nombre del panel más la marca de tiempo, en lugar de un UUID.
    • El límite de registros de exportación se ha elevado de 22 000 a 64 000.

20 de mayo de 2021

  • Ahora puede usar su propia clave de Azure Key Vault para cifrar las consultas y el historial de consultas de Databricks SQL almacenados en Azure Databricks. Si ya ha configurado su propia clave para que un área de trabajo para cifrar los datos de los servicios administrados (cuadernos y secretos), no es necesario realizar ninguna otra acción. La misma clave administrada por el cliente para los servicios administrados ahora también cifra las consultas y el historial de consultas de Databricks SQL. Consulte Habilitación de claves administradas por el cliente para servicios administrados. Este cambio solo afecta a los datos nuevos que se almacenan en reposo. No se garantiza que las consultas y el historial de consultas de Databricks SQL almacenados antes de hoy se cifren con esta clave.

    Los resultados de las consultas de Databricks SQL se almacenan en la instancia raíz de Azure Blob Storage que creó Azure Databricks durante la configuración del área de trabajo y no se cifran mediante la clave de los servicios administrados. Sin embargo, puede usar su propia clave para cifrarlos. Consulte Configuración de claves administradas por el cliente para la raíz de DBFS.

    Esta característica está disponible con el plan Premium de Azure Databricks.

  • La pestaña Past executions (Ejecuciones anteriores) ahora muestra el tiempo relativo.

13 de mayo de 2021

  • Databricks SQL ya no intenta adivinar los tipos de columna. Anteriormente, una columna con el formato xxxx-yy-dd se trataba automáticamente como una fecha, aunque fuera un código de identificación. Ahora esa columna ya no se trata automáticamente como una fecha. Si lo desea, debe especificarlo en la consulta. Este cambio puede provocar que dejen de funcionar algunas visualizaciones que se basaban en el comportamiento anterior. En esta versión, puede cambiar la opción Icono de configuración del usuario > Settings > Backwards Compatibility (Configuración > Compatibilidad con versiones anteriores) para volver al comportamiento anterior. En una versión futura, se eliminará esa funcionalidad.

  • El editor de consultas ahora tiene un indicador de progreso de la consulta. Los cambios de estado ahora se pueden ver en una barra de progreso que se actualiza continuamente.

    Barra de progreso

06 de mayo de 2021

  • Ya puede descargar el contenido del panel como PDF. Consulte Descargar como PDF.
  • Los usuarios administrador ahora tienen acceso de visualización a todas las consultas y paneles. En esta vista, un administrador puede ver y eliminar cualquier consulta o panel. Sin embargo, el administrador no puede editar la consulta o el panel si no se ha compartido con él. Consulte Vista del administrador de consultas y Vista del administrador del panel.
  • La capacidad de aumentar la simultaneidad del punto de conexión con el equilibrio de carga de varios clústeres ahora está disponible para todas las cuentas. Puede crear puntos de conexión que realicen una escalabilidad automática entre los recuentos mínimo y máximo de clústeres especificados. Los puntos de conexión sobrecargados se escalarán verticalmente y los puntos de conexión infracargados se reducirán verticalmente.

29 de abril de 2021

22 de abril de 2021

  • Se ha corregido un problema en el que los puntos de conexión eran inaccesibles y parecía que estaban eliminados debido a un error interno.

16 de abril de 2021

Databricks SQL mantiene la compatibilidad con la semántica de SQL de Apache Spark. En esta versión se actualiza la semántica para que coincida con la de Apache Spark 3.1. Anteriormente, Databricks SQL se alineaba con la semántica de Apache Spark 3.0.

  • Las funciones de agregación estadísticas, entre las que se incluyen std, stddev, stddev_samp, variance, var_samp, skewness, kurtosis, covar_samp y corr, devuelven NULL, en lugar de Double.NaN, si se produce DivideByZero en la evaluación de una expresión; por ejemplo, cuando stddev_samp se aplica en un único conjunto de elementos. Antes de esta versión, devolvería Double.NaN.
  • grouping_id() devuelve valores de tipo long. Antes de esta versión, esta función devolvía valores de tipo int.
  • Se da ha dado formato a los resultados de la explicación del plan de consulta.
  • from_unixtime, unix_timestamp,to_unix_timestamp, to_timestamp y to_date producirán un error si el patrón de datetime especificado no es válido. Antes de esta versión, devolvían NULL.
  • Los orígenes de datos Parquet, ORC, Avro y JSON inician la excepción org.apache.spark.sql.AnalysisException: "Se encontraron columnas duplicadas en el esquema de datos en lectura si detectan nombres duplicados en columnas de nivel superior, así como en estructuras anidadas".
  • Las estructuras y los mapas se incluyen entre {} corchetes al convertirlos en cadenas. Por ejemplo, la acción show() y la expresión CAST usan dichos corchetes. Antes de esta versión, se usaban corchetes d para el mismo fin.
  • Los elementos NULL de estructuras, matrices y mapas se convierten en "null" al convertirlos en cadenas. Antes de esta versión, NULL elementos se convertían en cadenas vacías.
  • La suma de desbordamientos de columna de tipo decimal devuelve null. Antes de esta versión, la suma de la columna de tipo decimal puede devolver null o un resultado incorrecto, o incluso genera un error en tiempo de ejecución (en función de la ejecución del plan de consulta real).
  • IllegalArgumentException se devuelve para los literales de intervalo incompletos, por ejemplo, INTERVAL '1' y INTERVAL '1 DAY 2', que no son válidos. Antes de esta versión, estos literales generaron valores NULL.
  • Si las marcas de tiempo están antes de 1900-01-01 00:00:00Z y se cargan (guardan) como si fueran del tipo INT96, se produce un error al cargar marcas de tiempo de archivos Parquet y al guardarlas en ellos. Antes de esta versión, las acciones no generaban ningún error, pero podían provocar un desplazamiento de las marcas de tiempo de entrada debido a la fusión mediante cambio de base desde el calendario juliano al calendario gregoriano proléptico, o viceversa.
  • Las funciones schema_of_json y schema_of_csv devuelven un esquema en formato SQL en el que se citan los nombres de campo. Antes de esta versión, la función devolvía una cadena de catálogo sin comillas de campo y en minúsculas.
  • Los tipos CHAR, CHARACTER y VARCHAR se admiten en el esquema de la tabla. El recorrido de la tabla y la inserción de tablas respetan la semántica char/varchar. Si char/varchar se usa en lugares que no sean el esquema de tabla, se genera una excepción (CAST es una excepción que simplemente trata char/varchar como cadena como antes).
  • Aparecen las siguientes excepciones para las tablas del catálogo externo de Hive:
    • ALTER TABLE .. ADD PARTITION inicia PartitionsAlreadyExistException si ya existe una nueva partición.
    • ALTER TABLE .. DROP PARTITION inicia NoSuchPartitionsException para las particiones no existentes.

13 de abril de 2021

  • Se ha mejorado el rendimiento de las consultas con la cola de puntos de conexión de SQL. Las consultas enviadas a un punto de conexión SQL ahora se ponen en cola cuando el punto de conexión ya está saturado con consultas en ejecución. Esto mejora el rendimiento de las consultas, ya que el punto de conexión no se sobrecarga con solicitudes. El rendimiento mejorado se puede ver en la pantalla de supervisión del punto de conexión.

01 de abril de 2021

  • Encuentre rápidamente el tiempo empleado en la compilación, ejecución y obtención de resultados para una consulta en Historial de consultas. Consulte Visualización del tiempo de consulta. Anteriormente, esta información solo estaba disponible al hacer clic en una consulta y abrir la pestaña Detalles de ejecución.
  • Los puntos de conexión de SQL ya no se escalan más allá de los clústeres máximos especificados. Todos los clústeres asignados a un punto de conexión de SQL se reciclan después de 24 horas, lo que puede crear una breve ventana en la que hay un clúster adicional.

18 de marzo de 2021

  • Autocompletar en el editor de consultas ahora la sintaxis SQL de Databricks y tiene en cuenta tanto el contexto como el alias. Consulte Creación de consultas.
  • Las solicitudes de JDBC y ODBC ya no generan errores de sesión no válida cuando se agota el tiempo de espera de la sesión en el servidor. Los clientes de BI ahora pueden recuperarse sin problemas cuando se agota el tiempo de espera de la sesión.

11 de mazo de 2021

  • Los administradores y usuarios de las áreas de trabajo recién habilitadas para Databricks SQL ya no tendrán acceso a Databricks SQL de forma automática. Para habilitar el acceso a Databricks SQL, el administrador debe:
    1. Ir a la consola de administración.
    2. Haga clic en la pestaña Usuarios.
    3. En la fila de la cuenta, haga clic en la casilla Databricks SQL access (Acceso a Databricks SQL).
    4. Haga clic en Confirmar.
    5. Repita los pasos 3 y 4 para conceder a los usuarios acceso a Databricks SQL o siga las instrucciones que se indican en Concesión de acceso a un grupo a Databricks SQL para conceder acceso a grupos.
  • Cree fácilmente consultas, paneles y alertas; para ello, seleccione Icono de creación Create > [Query | Dashboard | Alert] (Crear > [Consulta | Panel | Alerta]) en la parte superior de la barra lateral.
  • El Editor de Power Query ahora guarda los borradores y puede volver a una consulta guardada. Consulte cómo volver a una consulta guardada.
  • Ya no puede crear orígenes de datos externos.
  • Se ha mejorado la confiabilidad del gráfico de supervisión de puntos de conexión de SQL. El gráfico ya no muestra mensajes de error falsos de forma intermitente.

04 de mazo de 2021

  • Ya está disponible la documentación de Queries and Dashboards API. Consulte Queries and Dashboards API.
  • Ahora se realizan siempre actualizaciones programadas del panel. Las actualizaciones se realizan en la aplicación web, por lo que ya no es preciso mantener el panel abierto en un explorador. Consulte el apartado Actualización automática de paneles.
  • Los puntos de conexión de SQL creados mediante SQL Endpoints API ahora tienen habilitada la función de detención automática con un tiempo de espera predeterminado de dos horas.
  • Los usuarios de Tableau Online ya pueden conectarse a puntos de conexión de SQL. Consulte el nuevo inicio rápido de Tableau Online.

26 de febrero de 2021

El nuevo conector de Power BI para Azure Databricks, que se publicó en versión preliminar pública en septiembre de 2020, ahora está en fase de disponibilidad general. Proporciona:

  • Configuración de conexión simple: el nuevo conector Power BI Azure Databricks está integrado en Power BI y se configura mediante un sencillo cuadro de diálogo con un par de clics.
  • Autenticación basada en credenciales de Azure Active Directory (ya no es preciso que los administradores configuren tokens de PAT).
  • Importaciones más rápidas y las llamadas de metadatos optimizadas, gracias al nuevo controlador ODBC de Azure Databricks, que incluye importantes mejoras de rendimiento.
  • El acceso a los datos de Azure Databricks a través de Power BI respeta el control de acceso a tablas de Azure Databricks y los permisos de la cuenta de Azure Storage asociados a una identidad de Azure AD.

Para más información, consulte Power BI.

25 de febrero de 2021

  • Ahora es más rápido establecer permisos en un punto de conexión SQL. Es un paso que se da inmediatamente después de crear un punto de conexión SQL y al que se puede acceder fácilmente cuando se edita un punto de conexión existente. Consulte los apartados Creación de un punto de conexión SQL y Edición de permisos de punto de conexión.
  • Para volver a usar la configuración de visualización, ahora se pueden duplicar las visualizaciones. Consulte Duplicación de una visualización.
  • Los resultados de las consultas ahora se almacenan en su cuenta, en lugar de en la de Azure Databricks.
  • Para evitar la pérdida de información mediante la enumeración de todos los permisos definidos en un objeto, para ejecutar SHOW GRANTS [<user>] <object> debe ser:
    • Un administrador de Databricks SQL o el propietario de <object>.
    • El usuario especificado en [<user>].

07 de enero de 2021

  • Para reducir el gasto en puntos de conexión inactivos, los nuevos puntos de conexión de SQL tienen habilitada la función de detención automática con un tiempo de espera predeterminado de dos horas. Cuando se alcanza el tiempo de espera, el punto de conexión se detiene. No solo se puede modificar el período de tiempo de espera, sino también deshabilitar la detención automática en cualquier momento.
  • A excepción de los parámetros de consulta de tipos TEXT, ya no se agregan comillas a los parámetros de consulta. Si ha usado Dropdown List, Query Based Dropdown List o cualquier parámetro de consulta del tipo Date, debe agregar comillas para que la consulta funcione. Por ejemplo, si la consulta está SELECT {{ d }}, ahora esta consulta debe ser SELECT '{{ d }}'.

18 de noviembre de 2020

Databricks tiene el placer de presentar la versión preliminar pública de Databricks SQL, un entorno intuitivo para ejecutar consultas ad hoc y crear paneles de los datos almacenados en el lago de datos. Databricks SQL permite a su organización operar una arquitectura de lago de datos en varias nubes que proporciona el rendimiento del almacenamiento de datos con la economía del lago de datos. Databricks SQL:

  • Se integra con las herramientas de inteligencia empresarial que usa actualmente, como Tableau y Microsoft Power BI, para realizar consultas en los datos más completos y recientes de su lago de datos.
  • Complementa las herramientas de inteligencia empresarial existentes con una interfaz nativa de SQL que permite tanto a los analistas de datos como a los científicos de datos realizar consultas en los datos del lago de datos directamente en Azure Databricks.
  • Permite compartir información de consulta mediante visualizaciones enriquecidas y paneles de arrastrar y colocar con generación automática de alertas cuando se realizan cambios importantes en los datos.
  • Usa puntos de conexión de SQL para aportar confiabilidad, calidad, escala, seguridad y rendimiento a su lago de datos, por lo que puede ejecutar cargas de trabajo de análisis tradicionales con los datos más recientes y completos.
  • Presenta el privilegio USAGE, que simplifica la administración del acceso a los datos. Para usar un objeto en una base de datos, se le debe haber concedido el privilegio USAGE en esa base de datos, además de los privilegios necesarios para realizar la acción. El privilegio USAGE se puede conceder a bases de datos o al catálogo. En el caso de las áreas de trabajo que ya utilizan el control de acceso de tabla, el privilegio USAGE se concede automáticamente al grupo usuarios del CATALOG raíz. Para más información, consulte Control de acceso a datos.

Consulte Guía de Databricks SQL para más información. Para solicitar acceso, póngase en contacto con un representante de Databricks.

Problemas corregidos

  • Ahora puede usar MySQL 8.0 como un metastore externo.
  • Ya no se producirá el error java.lang.ClassCastException: java.sql.Timestamp cannot be cast to java.time.Instant. en los comandos DESCRIBE DETAIL de las tablas delta.
  • Ya no se produce un error al leer archivos Parquet con marcas de tiempo INT96.
  • Cuando un usuario tiene el permiso Puede ejecutar en una consulta y la ejecuta, si la consulta la creó otro usuario, el historial de consultas muestra al ejecutor de la consulta como el usuario.

Problemas conocidos

  • Para usar un metastore externo debe establecer spark.hadoop.javax.jdo.option.ConnectionDriverName en la configuración de acceso a los datos.
  • Las lecturas de orígenes de datos que no sean Delta Lake en puntos de conexión de SQL con equilibrio de carga de varios clústeres pueden ser incoherentes.
  • Las tablas Delta a las que se accede en Databricks SQL cargan su esquema y propiedades de tablas en el metastore configurado. Si usa una metastore externa, podrá ver la información de Delta Lake en la metastore. Delta Lake realiza grandes esfuerzos para mantener esta información tan actualizada como sea posible. También puede usar el comando DESCRIBE <table> para asegurarse de que la información se actualiza en metastore.
  • Photon está deshabilitado para las operaciones de escritura (por ejemplo, CREATE TABLE AS SELECT).

Preguntas más frecuentes (P+F)

¿Cómo se cobran las cargas de trabajo de Databricks SQL?

Las cargas de trabajo de Databricks SQL se cobran según la SKU de Proceso de trabajos estándar.

¿Se admite la versión preliminar pública de Databricks SQL en producción?

Sí, se admite plenamente. Consulte Versiones preliminares de Azure Databricks.

¿Dónde se ejecutan los puntos de conexión de SQL?

Al igual que los clústeres de Azure Databricks, los puntos de conexión de SQL se crean y administran en la cuenta de Azure. Los puntos de conexión de SQL administran los clústeres optimizados para SQL automáticamente en su cuenta y se escalan para satisfacer la demanda del usuario final.

¿Se pueden usar los puntos de conexión de SQL desde los cuadernos SQL del área de trabajo de ingeniería y ciencia de datos?

No. Los puntos de conexión de SQL se pueden usar desde consultas de Databricks SQL, herramientas de inteligencia empresarial y otros clientes JDBC y ODBC.

Se me ha concedido acceso a los datos mediante una credencial de proveedor en la nube. ¿Por qué no puedo acceder a estos datos en Databricks SQL?

En Databricks SQL, todo el acceso a los datos está sujeto al control de acceso a datos y es preciso que un administrador o el propietario de los datos le concedan antes los privilegiosadecuados.