Junho de 2019

Esses recursos e aprimoramentos da plataforma Azure Databricks foram lançados em junho de 2019.

Nota

Os lançamentos são encenados. Sua conta do Azure Databricks pode não ser atualizada até uma semana após a data de lançamento inicial.

O suporte para instâncias Lsv2 está em disponibilidade geral

24 a 26 de junho de 2019: Versão 2.100

O Azure Databricks agora fornece suporte total para a série de VMs Lsv2 para cargas de trabalho de alta taxa de transferência e IOPS altas.

A integração no RStudio já não está limitada a clusters de elevada simultaneidade

6 a 11 de junho de 2019: Versão 2.99

Agora você pode habilitar o RStudio Server em clusters padrão no Azure Databricks, além dos clusters de alta simultaneidade que já eram suportados. Independentemente do modo de cluster, a integração do RStudio Server continua a exigir que desative a opção de terminação automática para o cluster. Consulte RStudio no Azure Databricks.

MLflow 1.0

Junho 3, 2019

O MLflow é uma plataforma de código aberto para gerenciar todo o ciclo de vida do aprendizado de máquina. Com o MLflow, os cientistas de dados podem rastrear e compartilhar experimentos localmente ou na nuvem, empacotar e compartilhar modelos entre estruturas e implantar modelos praticamente em qualquer lugar.

Estamos entusiasmados em anunciar o lançamento do MLflow 1.0 hoje. A versão 1.0 não apenas marca a maturidade e a estabilidade das APIs, mas também adiciona uma série de recursos e melhorias frequentemente solicitados:

  • A CLI foi reorganizada e agora tem comandos dedicados para artefatos, modelos, db (o banco de dados de rastreamento) e servidor (o servidor de rastreamento).
  • A pesquisa do servidor de rastreamento suporta uma versão simplificada da SQL WHERE cláusula. Além de suportar métricas de execução e parâmetros, a pesquisa foi aprimorada para suportar alguns atributos de execução e tags de usuário e sistema.
  • Adiciona suporte para coordenadas x na API de rastreamento. Os componentes de visualização da interface do usuário MLflow agora também oferecem suporte à plotagem de métricas em relação aos valores de coordenadas x fornecidos.
  • Adiciona um ponto de extremidade da API REST, bem como métodos Python, R e Java para registrar várias métricas, parâmetros e tags com uma única solicitação de runs/log-batch API.
  • Para rastreamento, o cliente MLflow 1.0 agora é suportado no Windows.
  • Adiciona suporte para HDFS como back-end de armazenamento de artefatos.
  • Adiciona um comando para criar um contêiner do Docker cujo ponto de entrada padrão serve o modelo de função Python MLflow especificado na porta 8080 dentro do contêiner.
  • Adiciona um sabor de modelo experimental ONNX .

Você pode exibir a lista completa de alterações no log de alterações do MLflow.

Databricks Runtime 5.4 com Conda (Beta)

Junho 3, 2019

Importante

O Databricks Runtime with Conda está em versão beta. O conteúdo dos ambientes suportados pode mudar nas próximas versões Beta. As alterações podem incluir a lista de pacotes ou versões de pacotes instalados. O Databricks Runtime 5.4 com Conda é construído sobre o Databricks Runtime 5.4 (sem suporte).

Temos o prazer de apresentar o Databricks Runtime 5.4 com o Conda, que permite que você aproveite o Conda para gerenciar bibliotecas e ambientes Python. Este tempo de execução oferece duas opções de ambiente Conda raiz na criação do cluster:

  • O ambiente Databricks Standard inclui versões atualizadas de muitos pacotes Python populares. Esse ambiente destina-se a substituir os blocos de anotações existentes que são executados no Databricks Runtime. Este é o ambiente de tempo de execução padrão baseado em Databricks Conda.
  • O ambiente Databricks Minimal contém os pacotes mínimos necessários para a funcionalidade de notebook Python PySpark e Databricks. Este ambiente é ideal se você quiser personalizar o tempo de execução com vários pacotes Python.

Consulte as notas de versão completas em Databricks Runtime 5.4 with Conda (sem suporte).

Databricks Runtime 5.4 para Machine Learning

Junho 3, 2019

O Databricks Runtime 5.4 ML é construído sobre o Databricks Runtime 5.4 (sem suporte). Ele contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost, e fornece treinamento distribuído do TensorFlow usando Horovod.

Inclui as seguintes novas funcionalidades:

  • Integração do MLlib com o MLflow (Public Preview).
  • Hyperopt com a nova classe SparkTrials pré-instalada (Visualização pública).
  • A saída HorovodRunner enviada do Horovod para o nó do driver Spark agora é visível nas células do notebook.
  • Pacote XGBoost Python pré-instalado.

Para obter detalhes, consulte Databricks Runtime 5.4 for ML (sem suporte).

Databricks Runtime 5.4

Junho 3, 2019

O Databricks Runtime 5.4 já está disponível. O Databricks Runtime 5.4 inclui o Apache Spark 2.4.2, bibliotecas Python, R, Java e Scala atualizadas e os seguintes novos recursos:

  • Delta Lake on Databricks adiciona Auto Otimize (Visualização pública)
  • Use seu IDE favorito e servidor de notebook com o Databricks Connect
  • Utilitários de biblioteca geralmente disponíveis
  • Fonte de dados de arquivo binário

Para obter detalhes, consulte Databricks Runtime 5.4 (sem suporte).