Mayo de 2020

Artículo
03/08/2024

Estas características y las mejoras de la plataforma Azure Databricks se publicaron en mayo de 2020.

Nota:

Las versiones se publican por fases. Su cuenta de Azure Databricks puede no actualizarse hasta una semana después de la fecha de lanzamiento inicial.

Máquinas virtuales de la serie Easv4 (beta)

29 de mayo de 2020

Ahora, Azure Databricks proporciona compatibilidad beta con máquinas virtuales de la Serie Easv4, que usan un SSD premium y pueden lograr una frecuencia máxima aumentada de 3,35 GHz. Estos tipos de instancia pueden optimizar el rendimiento de la carga de trabajo para aplicaciones empresariales que consumen mucha memoria.

Disponibilidad general de Databricks Runtime 6.6 para Genomics

26 de mayo de 2020

Databricks Runtime 6.6 para Genomics se basa en Databricks Runtime 6.6, e incluye las siguientes características nuevas:

Lector de GFF3
Compatibilidad con genomas de referencia personalizados
Tiempos de espera de canalización por muestra
Opción de exportación a BAM
Blobs de manifiesto

Disponibilidad general de Databricks Runtime 6.6 ML

26 de mayo de 2020

Databricks Runtime 6.6 ML se basa en Databricks Runtime 6.6, e incluye las siguientes características nuevas:

Mlflow actualizado: de 1.7.0 a 1.8.0

Para más información, consulte las notas completas de la versión de Databricks Runtime 6.6 ML (sin soporte técnico).

Disponibilidad general de Databricks Runtime 6.6

26 de mayo de 2020

Databricks Runtime 6.6 ofrece muchas actualizaciones de biblioteca y características nuevas, incluidas las siguientes características de Delta Lake:

Ahora puede desarrollar automáticamente el esquema de la tabla con la operación merge. Esto es útil en escenarios en los que desea insertar los datos de cambio en una tabla y el esquema de los datos cambia con el tiempo. En lugar de detectar y aplicar los cambios de esquema antes de la inserción o actualización, merge puede desarrollar simultáneamente el esquema e insertar o actualizar los cambios. Consulte Evolución automática del esquema para la combinación de Delta Lake.
Se ha mejorado el rendimiento de las operaciones Merge que solo tienen cláusulas coincidentes, es decir, solo tienen las acciones update y delete, y ninguna acción insert.
Ahora, las tablas Parquet a las que se hace referencia en el metastore de Hive se pueden convertir a Delta Lake a través de sus identificadores de tabla utilizando CONVERT TO DELTA.

Para más información, vea las notas completas de la versión de Databricks Runtime 6.6 (sin soporte técnico).

Límite de tamaño de punto de conexión de eliminación de API REST de DBFS

21-28 de mayo de 2020 (versión 3.20)

Cuando se elimina un gran número de archivos de forma recursiva mediante el API de DBFS, la operación de eliminación se realiza en incrementos. La llamada devuelve una respuesta después de aproximadamente 45 segundos con un mensaje de error que le pide que vuelva a invocar la operación de eliminación hasta que la estructura de directorios se elimine por completo. Por ejemplo:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Fácil visualización de un gran número de modelos registrados de MLflow

21-28 de mayo de 2020 (versión 3.20)

Ahora, el registro de modelos de MLflow admite la búsqueda y paginación del lado servidor para los modelos registrados, lo que permite a las organizaciones que tienen un gran número de modelos realizar de forma eficaz la enumeración y la búsqueda. Como antes, puede buscar modelos por nombre y obtener resultados ordenados por nombre o por la hora de la última actualización. Sin embargo, si tiene un gran número de modelos, las páginas se cargarán mucho más rápido y la búsqueda capturará la vista más actualizada de los modelos.

Las bibliotecas configuradas para instalarse en todos los clústeres no están instaladas en clústeres que ejecutan Databricks Runtime 7.0, y las versiones posteriores

21-28 de mayo de 2020 (versión 3.20)

En Databricks Runtime 7.0 y posteriores, la versión subyacente de Apache Spark usa Scala 2.12. Dado que las bibliotecas compiladas en Scala 2.11 pueden deshabilitar los clústeres de Databricks Runtime 7.0 en modos inesperados, los clústeres que ejecutan Databricks Runtime 7.0 y posteriores no instalan bibliotecas configuradas para instalarse en todos los clústeres. La pestaña Libraries (Bibliotecas) del clúster muestra un estado Skipped y un mensaje de desuso relacionado con los cambios en el control de bibliotecas.

Si tiene un clúster que se creó en una versión anterior de Databricks Runtime, antes de que se publicara en el área de trabajo la versión 3.20, y ahora edita ese clúster para usar Databricks Runtime 7.0, todas las bibliotecas configuradas para instalarse en todos los clústeres se instalarán en ese clúster. En este caso, los archivos JAR incompatibles de las bibliotecas instaladas pueden hacer que el clúster se deshabilite. La solución alternativa es clonar el clúster o crear uno nuevo.

Databricks Runtime 7.0 para Genomics (beta)

21 de mayo de 2020

Databricks Runtime 7.0 para Genomics se basa en Databricks Runtime 7.0, e incluye los siguientes cambios en las librerías:

La biblioteca ADAM se ha actualizado de la versión 0.30.0 a la 0.32.0.
La biblioteca Hail no se incluye en Databricks Runtime 7.0 para Genomics, ya que no hay ninguna versión basada en Apache Spark 3.0.

Databricks Runtime 7.0 ML (beta)

21 de mayo de 2020

Databricks Runtime 7.0 ML se basa en Databricks Runtime 7.0, e incluye las siguientes características nuevas:

Bibliotecas de Python con ámbito de cuaderno y entornos personalizados administrados por los comandos conda y pip.
Actualizaciones para los paquetes principales de Python, como tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
Paquetes de Python recién agregados: lightgbm, nltk, petastorm y plotly.
RStudio Server Open Source v1.2.

Para más información, consulte las notas completas de la versión de Databricks Runtime 7.0 ML (sin soporte técnico).

Databricks Runtime 6.6 para Genomics (beta)

7 de mayo de 2020

Databricks Runtime 6.6 para Genomics se basa en Databricks Runtime 6.6, e incluye las siguientes características nuevas:

Lector de GFF3
Compatibilidad con genomas de referencia personalizados
Tiempos de espera de canalización por muestra
Opción de exportación a BAM
Blobs de manifiesto

Databricks Runtime 6.6 ML (Beta)

7 de mayo de 2020

Databricks Runtime 6.6 ML se basa en Databricks Runtime 6.6, e incluye las siguientes características nuevas:

Mlflow actualizado: de 1.7.0 a 1.8.0

Para más información, consulte las notas completas de la versión de Databricks Runtime 6.6 ML (sin soporte técnico).

Databricks Runtime 6.6 (beta)

7 de mayo de 2020

Databricks Runtime 6.6 (Beta) ofrece muchas actualizaciones de biblioteca y características nuevas, incluidas las siguientes características de Delta Lake:

Ahora puede desarrollar automáticamente el esquema de la tabla con la operación merge. Esto es útil en escenarios en los que desea insertar los datos de cambio en una tabla y el esquema de los datos cambia con el tiempo. En lugar de detectar y aplicar los cambios de esquema antes de la inserción o actualización, merge puede desarrollar simultáneamente el esquema e insertar o actualizar los cambios. Consulte Evolución automática del esquema para la combinación de Delta Lake.
Se ha mejorado el rendimiento de las operaciones Merge que solo tienen cláusulas coincidentes, es decir, solo tienen las acciones update y delete, y ninguna acción insert.
Ahora, las tablas Parquet a las que se hace referencia en el metastore de Hive se pueden convertir a Delta Lake a través de sus identificadores de tabla utilizando CONVERT TO DELTA.

Para más información, vea las notas completas de la versión de Databricks Runtime 6.6 (sin soporte técnico).

Los clústeres de trabajos ahora tienen una etiqueta con su nombre e identificador

5-12 de mayo de 2020 (versión 3.19)

Los clústeres de trabajo se etiquetan automáticamente con el nombre de trabajo e id. Las etiquetas aparecen en los informes de uso facturables para que pueda atribuir fácilmente el uso de DBU por trabajo e identificar anomalías. Las etiquetas se sanean según las especificaciones de etiquetas del clúster, como, por ejemplo, los caracteres permitidos, el tamaño máximo y el número máximo de etiquetas. El nombre del trabajo se encuentra en la etiqueta RunName y el identificador de trabajo está incluido en la etiqueta JobId.

Restauración de celdas eliminadas del cuaderno

5-12 de mayo de 2020 (versión 3.19)

Ahora puede restaurar las celdas eliminadas mediante el método abreviado de teclado (Z) o seleccionando Edición > Deshacer el corte de las celdas.

Límite de colas pendientes de trabajos

5-12 de mayo de 2020 (versión 3.19)

Ahora, un área de trabajo está limitada a 1000 ejecuciones de trabajo activas (en ejecución y pendientes). Puesto que un área de trabajo está limitado a 150 ejecuciones de trabajo simultáneas (en ejecución), un área de trabajo puede tener hasta 850 ejecuciones pendientes en la cola.

Mayo de 2020

Máquinas virtuales de la serie Easv4 (beta)

Disponibilidad general de Databricks Runtime 6.6 para Genomics

Disponibilidad general de Databricks Runtime 6.6 ML

Disponibilidad general de Databricks Runtime 6.6

Límite de tamaño de punto de conexión de eliminación de API REST de DBFS

Fácil visualización de un gran número de modelos registrados de MLflow

Las bibliotecas configuradas para instalarse en todos los clústeres no están instaladas en clústeres que ejecutan Databricks Runtime 7.0, y las versiones posteriores

Databricks Runtime 7.0 para Genomics (beta)

Databricks Runtime 7.0 ML (beta)

Databricks Runtime 6.6 para Genomics (beta)

Databricks Runtime 6.6 ML (Beta)

Databricks Runtime 6.6 (beta)

Los clústeres de trabajos ahora tienen una etiqueta con su nombre e identificador

Restauración de celdas eliminadas del cuaderno

Límite de colas pendientes de trabajos

Recursos adicionales