Mayo de 2020

Estas características y Azure Databricks de la plataforma se publicaron en mayo de 2020.

Nota

Las versiones se provisionalmente. Es Azure Databricks la cuenta de lanzamiento no se puede actualizar hasta una semana después de la fecha de lanzamiento inicial.

Máquinas virtuales de la serie Easv4 (beta)

29 de mayo de 2020

Azure Databricks ahora proporciona compatibilidad beta con máquinas virtuales de la serie Easv4, que usan un SSD Premium y pueden lograr una frecuencia máxima aumentada de 3,35 GHz. Estos tipos de instancia pueden optimizar el rendimiento de la carga de trabajo para las aplicaciones empresariales que consumen mucha memoria.

Disponibilidad general de Databricks Runtime 6.6 para Genomics

26 de mayo de 2020

Databricks Runtime 6.6 para Genomics se basa en Databricks Runtime 6.6 e incluye las siguientes características nuevas:

  • Lector GFF3
  • Compatibilidad con genomas de referencia personalizados
  • Tiempos de espera de canalización por ejemplo
  • Opción de exportación de BAM
  • Blobs de manifiesto

Para obtener más información, vea las notas de la versión Databricks Runtime 6.6 para Genomics (no admitido).

Disponibilidad general de Databricks Runtime 6.6 ML

26 de mayo de 2020

Databricks Runtime 6.6 ML se basa en Databricks Runtime 6.6 e incluye las siguientes características nuevas:

  • Mlflow actualizado: 1.7.0 a 1.8.0

Para más información, consulte las notas de la versión Databricks Runtime ml 6.6 (no compatible).

Disponibilidad general de Databricks Runtime 6.6

26 de mayo de 2020

Databricks Runtime 6.6 ofrece muchas actualizaciones de biblioteca y características nuevas, incluidas las siguientes características de Delta Lake:

  • Ahora puede desarrollar automáticamente el esquema de la tabla con la merge operación . Esto es útil en escenarios en los que desea insertar los datos de cambios en una tabla y el esquema de los datos cambia con el tiempo. En lugar de detectar y aplicar los cambios de esquema antes de la reeserción, puede desarrollar simultáneamente el esquema y merge actualizar los cambios. Vea Evolución automática del esquema.
  • Se ha mejorado el rendimiento de las operaciones de combinación que solo tienen cláusulas coincidentes, es decir, solo tienen acciones y y update delete ninguna insert acción.
  • Las tablas de Parquet a las que se hace referencia en la tienda de metadatos de Hive ahora se pueden convertir a Delta Lake a través de sus identificadores de tabla mediante CONVERT TO DELTA .

Para obtener más información, vea las notas Databricks Runtime de la versión 6.6 (no admitida).

Límite de tamaño de punto de conexión de eliminación de API REST de DBFS

21-28 de mayo de 2020: versión 3.20

Cuando se elimina un gran número de archivos de forma recursiva mediante la API de DBFS,la operación de eliminación se realiza en incrementos. La llamada devuelve una respuesta después de aproximadamente 45 s con un mensaje de error que le pide que vuelva a invocar la operación de eliminación hasta que la estructura de directorios se elimine por completo. Por ejemplo:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Fácil visualización de un gran número de modelos registrados de MLflow

21-28 de mayo de 2020: versión 3.20

El registro de modelos de MLflow ahora admite la búsqueda y paginación del lado servidor para los modelos registrados, lo que permite a las organizaciones con un gran número de modelos realizar búsquedas y listas de forma eficaz. Como antes, puede buscar modelos por nombre y obtener resultados ordenados por nombre o la hora de la última actualización. Sin embargo, si tiene un gran número de modelos, las páginas se cargarán mucho más rápido y la búsqueda capturará la vista más actualizada de los modelos.

Las bibliotecas configuradas para instalarse en todos los clústeres no están instaladas en clústeres que ejecutan Databricks Runtime 7.0, y las versiones posteriores

21-28 de mayo de 2020: versión 3.20

En Databricks Runtime 7.0 y versiones posteriores, la versión subyacente de Apache Spark usa Scala 2.12. Dado que las bibliotecas compiladas en Scala 2.11 pueden deshabilitar los clústeres de Databricks Runtime 7.0 de maneras inesperadas, los clústeres que ejecutan Databricks Runtime 7.0 y posteriores no instalan bibliotecas configuradas para instalarse en todos los clústeres. La pestaña Bibliotecas del clúster muestra un estado Skipped y un mensaje de desuso relacionados con los cambios en el control de bibliotecas.

Si tiene un clúster que se creó en una versión anterior de Databricks Runtime antes de que se publicara la versión 3.20 en el área de trabajo y ahora edita ese clúster para usar Databricks Runtime 7.0, las bibliotecas que se configuraron para instalarse en todos los clústeres se instalarán en ese clúster. En este caso, cualquier ARCHIVO JAR incompatible en las bibliotecas instaladas puede hacer que el clúster se deshabilite. La solución alternativa es clonar el clúster o crear un nuevo clúster.

Databricks Runtime 7.0 para Genomics (beta)

21 de mayo de 2020

Databricks Runtime 7.0 para Genomics se basa en Databricks Runtime 7.0 e incluye los siguientes cambios en la biblioteca:

  • La biblioteca ADAM se ha actualizado de la versión 0.30.0 a la 0.32.0.
  • La biblioteca Deón no se incluye en Databricks Runtime 7.0 para Genomics, ya que no hay ninguna versión basada en Apache Spark 3.0.

Para más información, consulte las notas de la versión Databricks Runtime 7.0 para Genomics (no compatible).

Databricks Runtime 7.0 ML (Beta)

21 de mayo de 2020

Databricks Runtime ml 7.0 se basa en Databricks Runtime 7.0 e incluye las siguientes características nuevas:

  • Bibliotecas de Python de ámbito de cuaderno y entornos personalizados administrados por comandos conda y pip.
  • Actualizaciones de paquetes principales de Python, como tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
  • Paquetes de Python recién agregados lightgbm, nltk, petastorm y plotly.
  • RStudio Server Open Source v1.2.

Para más información, consulte las notas de la versión Databricks Runtime ml 7.0 (no compatible).

Databricks Runtime 6.6 para Genomics (beta)

7 de mayo de 2020

Databricks Runtime 6.6 para Genomics se basa en Databricks Runtime 6.6 e incluye las siguientes características nuevas:

  • Lector GFF3
  • Compatibilidad con genomas de referencia personalizados
  • Tiempos de espera de canalización por ejemplo
  • Opción de exportación de BAM
  • Blobs de manifiesto

Para obtener más información, vea las notas de la versión Databricks Runtime 6.6 para Genomics (no admitido).

Databricks Runtime 6.6 ML (Beta)

7 de mayo de 2020

Databricks Runtime 6.6 ML se basa en Databricks Runtime 6.6 e incluye las siguientes características nuevas:

  • Mlflow actualizado: 1.7.0 a 1.8.0

Para más información, consulte las notas de la versión Databricks Runtime ml 6.6 (no compatible).

Databricks Runtime 6.6 (beta)

7 de mayo de 2020

Databricks Runtime 6.6 (Beta) ofrece muchas actualizaciones de biblioteca y características nuevas, incluidas las siguientes características de Delta Lake:

  • Ahora puede desarrollar automáticamente el esquema de la tabla con la merge operación . Esto es útil en escenarios en los que desea insertar los datos de cambios en una tabla y el esquema de los datos cambia con el tiempo. En lugar de detectar y aplicar los cambios de esquema antes de la reeserción, puede desarrollar simultáneamente el esquema y merge actualizar los cambios. Vea Evolución automática del esquema.
  • Se ha mejorado el rendimiento de las operaciones de combinación que solo tienen cláusulas coincidentes, es decir, solo tienen acciones y y update delete ninguna insert acción.
  • Las tablas de Parquet a las que se hace referencia en la tienda de metadatos de Hive ahora se pueden convertir a Delta Lake a través de sus identificadores de tabla mediante CONVERT TO DELTA .

Para obtener más información, vea las notas Databricks Runtime de la versión 6.6 (no admitida).

Los clústeres de trabajos ahora tienen una etiqueta con su nombre e identificador

5-12 de mayo de 2020: versión 3.19

Los clústeres de trabajos se etiquetan automáticamente con el nombre y el identificador del trabajo. Las etiquetas aparecen en los informes de uso facturables para que pueda atribuir fácilmente el uso de DBU por trabajo e identificar anomalías. Las etiquetas se sanean según las especificaciones de etiquetas del clúster, como los caracteres permitidos, el tamaño máximo y el número máximo de etiquetas. El nombre del trabajo se encuentra en la RunName etiqueta y el identificador del trabajo se encuentra en la JobId etiqueta.

Restauración de celdas eliminadas del cuaderno

5-12 de mayo de 2020: versión 3.19

Ahora puede restaurar las celdas eliminadas mediante el método abreviado de teclado ( ) o seleccionando Editar > Z Eliminar celdas.

Límite de colas pendientes de trabajos

5-12 de mayo de 2020: versión 3.19

Un área de trabajo ahora está limitada a 1000 ejecuciones de trabajos activos (en ejecución y pendientes). Puesto que un área de trabajo está limitada a 150 ejecuciones de trabajos simultáneas (en ejecución), un área de trabajo puede tener hasta 850 ejecuciones en la cola pendiente.