Fotón

Importante

Esta característica está en versión preliminar pública.

Photon es el motor de consultas vectorizado nativo en Azure Databricks, escrito para ser directamente compatible con Apache Spark API, por lo que funciona con el código existente. Se ha desarrollado en C++ para aprovechar el hardware moderno y usa las técnicas más recientes en el procesamiento de consultas vectorizadas para aprovechar el paralelismo de nivel de datos e instrucciones en las CPU, lo que mejora el rendimiento de los datos y las aplicaciones reales, todo ello de forma nativa en el lago de datos. Photon forma parte de un entorno de ejecución de alto rendimiento que ejecuta las llamadas API existentes de SQL y DataFrame más rápidamente y reduce el costo total por carga de trabajo.

Puntos de conexión sql de Databricks

Photon está habilitado de forma predeterminada en los puntos de conexión sql de Databricks. Para confirmar que Photon está habilitado para un punto de conexión SQL, haga clic en Puntos de conexión Icon Endpoints (Puntos de conexión) en la barra lateral, seleccione el punto de conexión y compruebe que el valor de Photon es  On (Activado).

Ventajas

A continuación se resumen las ventajas de Photon:

  • Admite SQL en tablas Delta y Parquet.
  • Se espera que acelere las consultas que procesan una cantidad significativa de datos (más de 100 GB) e incluyen agregaciones y combinaciones.
  • Rendimiento de examen más sólido en tablas con muchas columnas y muchos archivos pequeños.
  • Escritura más rápida de Delta y Parquet con , , , y , especialmente para UPDATE DELETE tablas MERGE INTO INSERT CREATE TABLE AS SELECT anchas (de cientos a miles de columnas).
  • Photon reemplaza las combinaciones sort-merge por combinaciones hash.

Limitaciones

  • Funciona en tablas Delta y Parquet solo para lectura y escritura.
  • No admite los siguientes tipos de datos:
    • Asignación
    • Array
  • No admite operadores de ventana y ordenación
  • No se espera que mejore las operaciones cuellos de botella por la red o la E/S de examen.
  • No se espera que mejore las consultas de ejecución corta (<2 segundos), por ejemplo, en datos pequeños.