Junho de 2019

Esses recursos e melhorias na plataforma Azure Databricks foram lançados em junho de 2019.

Observação

As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.

O suporte da instância do Lsv2 está disponível para o público geral

24 a 26 de junho de 2019: versão 2.100

O Azure Databricks agora fornece suporte completo para a série de VM Lsv2 nas cargas de trabalho com taxa de transferência e IOPS elevados.

A integração do RStudio não é mais limitada a clusters de alta simultaneidade

6 a 11 de junho de 2019: versão 2.99

Agora você pode habilitar o RStudio Server em clusters padrão no Azure Databricks, além dos clusters de alta simultaneidade que já eram suportados. Independentemente do modo de cluster, a integração do RStudio Server continua a exigir que você desabilite a opção de encerramento automático no cluster. Confira RStudio no Azure Databricks.

MLflow 1.0

3 de junho de 2019

O MLflow é uma plataforma de código aberto projetada para gerenciar o ciclo de vida completo do aprendizado de máquina. Com o MLflow, os cientistas de dados podem acompanhar e compartilhar experimentos localmente ou na nuvem, empacotar e compartilhar modelos entre estruturas e implantar modelos de praticamente qualquer lugar.

É com alegria que hoje anunciamos o lançamento do MLflow 1.0. A versão 1.0, além de marcar a maturidade e a estabilidade das APIs, adiciona vários recursos e melhorias frequentemente solicitados:

  • A CLI foi reorganizada e, agora, tem comandos dedicados para artefatos, modelos, banco de dados (o banco de dados de acompanhamento) e servidor (o servidor de acompanhamento).
  • A pesquisa do servidor de acompanhamento aceita uma versão simplificada da cláusula SQL WHERE. Além de aceitar parâmetros e métricas de execução, a pesquisa foi aprimorada para dar suporte a alguns atributos de execução, bem como a marcas do usuário e do sistema.
  • Adiciona suporte para coordenadas x na API de acompanhamento. Os componentes de visualização da interface do usuário do MLflow agora também dão suporte a métricas de plotagem em relação aos valores de coordenadas x fornecidos.
  • Adiciona um ponto de extremidade da REST API runs/log-batch, bem como os métodos Python, R e Java de registro de várias métricas, parâmetros e marcas com uma única solicitação da API.
  • Para acompanhamento, agora há suporte para o cliente MLflow 1.0 no Windows.
  • Adiciona suporte para HDFS como um back-end de armazenamento de artefatos.
  • Adiciona um comando para criar um contêiner do Docker cujo ponto de entrada padrão serve o modelo de função do Python MLflow especificado na porta 8080 do contêiner.
  • Adiciona um tipo de modelo de ONNX experimental.

Você pode exibir a lista completa de alterações no log de alterações do MLflow.

Databricks Runtime 5.4 com o Conda (Beta)

3 de junho de 2019

Importante

O Databricks Runtime com Conda está na fase Beta. O conteúdo dos ambientes com suporte pode mudar nas versões Beta futuras. As alterações podem incluir a lista de pacotes ou versões dos pacotes instalados. O Databricks Runtime 5.4 com Conda tem como base o Databricks Runtime 5.4 (sem suporte).

Estamos felizes em apresentar o Databricks Runtime 5.4 com o Conda, que permite que você aproveite o Conda para gerenciar bibliotecas e ambientes do Python. Esse runtime oferece duas opções de ambiente do Conda raiz na criação do cluster:

  • O ambiente Databricks Standard inclui versões atualizadas de vários pacotes populares do Python. Esse ambiente destina-se a substituir os notebooks existentes que são executados em Databricks Runtime. É o ambiente de runtime padrão baseado em Conda do Databricks.
  • O ambiente Databricks Minimal contém os pacotes mínimos necessários para a funcionalidade de notebooks Python PySpark e Databricks. Esse ambiente é ideal para personalizar o runtime com vários pacotes do Python.

Confira as notas de versão completas em Databricks Runtime 5.4 com Conda (sem suporte).

Databricks Runtime 5.4 para Machine Learning

3 de junho de 2019

O Databricks Runtime 5.4 para ML tem como base o Databricks Runtime 5.4 (sem suporte). Ele contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost, e fornece treinamento de TensorFlow distribuído usando o Horovod.

Ele inclui os seguintes novos recursos:

  • Integração do MLlib com o MLflow (Visualização Pública).
  • Hyperopt com a nova classe SparkTrials pré-instalada (Visualização Pública).
  • A saída do HorovodRunner enviada do Horovod para o nó do driver Spark agora está visível nas células do notebook.
  • Pacote Python XGBoost pré-instalado.

Para saber mais, confira Databricks Runtime 5.4 para ML (sem suporte).

Databricks Runtime 5.4

3 de junho de 2019

O Databricks Runtime 5.4 já está disponível. O Databricks Runtime 5.4 inclui Apache Spark 2.4.2, bibliotecas Python, R, Java e Scala aprimoradas, bem como os seguintes novos recursos:

  • O Delta Lake no Databricks adiciona otimização automática (Visualização Pública).
  • Use seu IDE e servidor de notebook favoritos com o Databricks Connect.
  • Utilitários de biblioteca disponíveis para o público geral.
  • Fonte de dados de arquivo binário.

Para obter detalhes, consulte Databricks Runtime 5.4 (sem suporte).