Junio de 2019

Estas características y mejoras de la plataforma de Azure Databricks se publicaron en junio de 2019.

Nota:

Las versiones se publican por fases. Es posible que su cuenta de Azure Databricks no se actualice hasta una semana después de la fecha de lanzamiento inicial.

La compatibilidad con las instancias de Lsv2 está disponible con carácter general

24-26 de junio de 2019: versión 2.100

Azure Databricks proporciona compatibilidad completa con la serie de máquinas virtuales Lsv2 para cargas de trabajo de alto rendimiento y con un número elevado de IOPS.

La integración de RStudio ya no está limitada a los clústeres de alta simultaneidad

6-11 de junio de 2019: versión 2.99

Ahora puede habilitar RStudio Server en clústeres estándar en Azure Databricks, además de los clústeres de alta simultaneidad que ya se admitían. Independientemente del modo de clúster, la integración de RStudio Server sigue necesitando que se deshabilite la opción de terminación automática para el clúster. Consulte RStudio en Azure Databricks.

MLflow 1.0

3 de junio de 2019

MLflow es una plataforma de código abierto para administrar el ciclo de vida completo del aprendizaje automático. Con MLflow, los científicos de datos pueden supervisar y compartir experimentos localmente o en la nube, empaquetar y compartir modelos entre marcos e implementar modelos prácticamente en cualquier lugar.

Nos complace anunciar el lanzamiento de MLflow 1.0 hoy mismo. La versión 1.0 no solo marca la madurez y la estabilidad de las API, sino que también agrega una serie de características y mejoras solicitadas con frecuencia:

  • La CLI se ha reorganizado y ahora tiene comandos dedicados para artefactos, modelos, bases de datos (la base de datos de seguimiento) y servidores (el servidor de seguimiento).
  • La búsqueda del servidor de seguimiento admite una versión simplificada de la cláusula SQL WHERE. Además de admitir parámetros y métricas de ejecución, se ha mejorado la búsqueda para admitir algunos atributos de ejecución y etiquetas del usuario y del sistema.
  • Agrega compatibilidad con coordenadas X en la API de seguimiento. Los componentes de visualización de la interfaz de usuario de MLflow ahora también admiten el trazado de métricas en relación con los valores de coordenadas X proporcionados.
  • Agrega un punto de conexión de API REST runs/log-batch, así como métodos de Python, R y Java para registrar varias métricas, parámetros y etiquetas con una única solicitud de API.
  • Para el seguimiento, el cliente de MLflow 1.0 ahora se admite en Windows.
  • Agrega compatibilidad con HDFS como back-end de almacén de artefactos.
  • Agrega un comando para compilar un contenedor Docker cuyo punto de entrada predeterminado sirve al modelo de función de Python de MLflow especificado en el puerto 8080 del contenedor.
  • Agrega un tipo de modelo de ONNX experimental.

Puede ver la lista completa de cambios en el registro de cambios de MLflow.

Databricks Runtime 5.4 con Conda (versión beta)

3 de junio de 2019

Importante

Databricks Runtime con Conda se encuentra en versión Beta. El contenido de los entornos admitidos puede cambiar en las próximas versiones beta. Los cambios pueden incluir la lista de paquetes o versiones de los paquetes instalados. Databricks Runtime 5.4 con Conda se basa en Databricks Runtime 5.4 (sin soporte técnico).

Nos complace presentar Databricks Runtime 5.4 con Conda, que permite aprovechar las ventajas de Conda para administrar los entornos y las bibliotecas de Python. Este entorno en tiempo de ejecución ofrece dos opciones de entorno raíz de Conda durante la creación del clúster:

  • El entorno estándar de Databricks incluye versiones actualizadas de muchos paquetes populares de Python. Este entorno está pensado como reemplazo directo de los cuadernos existentes que se ejecutan en Databricks Runtime. Es el entorno en tiempo de ejecución predeterminado basado en Conda de Databricks.
  • El entorno mínimo de Databricks contiene el mínimo de paquetes necesarios para la funcionalidad de los cuadernos de Python de PySpark y Databricks. Este entorno es ideal si quiere personalizar el entorno en tiempo de ejecución con varios paquetes de Python.

Consulte las notas de la versión completas en Databricks Runtime 5.4 con Conda (sin soporte técnico).

Databricks Runtime 5.4 para Machine Learning

3 de junio de 2019

Databricks Runtime 5.4 ML se basa en Databricks Runtime 5.4 (sin soporte técnico). Contiene muchas bibliotecas populares de aprendizaje automático, como TensorFlow, PyTorch, Keras y XGBoost, y proporciona entrenamiento distribuido de TensorFlow mediante Horovod.

Incluye las siguientes características nuevas:

  • Integración de MLlib con MLflow (versión preliminar pública).
  • Hyperopt con la nueva clase SparkTrials preinstalada (versión preliminar pública).
  • La salida de HorovodRunner enviada desde Horovod al nodo del controlador de Spark ahora está visible en las celdas del cuaderno.
  • Paquete de Python de XGBoost preinstalado.

Para más información, consulte Databricks Runtime 5.4 para ML (sin soporte técnico).

Databricks Runtime 5.4

3 de junio de 2019

Databricks Runtime 5.4 ya está disponible. Databricks Runtime 5.4 incluye Apache Spark 2.4.2, bibliotecas actualizadas de Python, R, Java y Scala, y las siguientes características nuevas:

  • Delta Lake en Databricks agrega la optimización automática (versión preliminar pública).
  • Use el IDE y el servidor de cuadernos que prefiera con Databricks Connect.
  • Utilidades de biblioteca disponibles con carácter general.
  • Origen de datos de archivos binarios.

Para más información, consulte Databricks Runtime 5.4 (sin soporte técnico).