Fevereiro de 2019

Artigo
03/01/2024

Esses recursos e aprimoramentos da plataforma Azure Databricks foram lançados em fevereiro de 2019.

Observação

As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.

Databricks Light disponível para o público geral

26 de fevereiro – 5 de março de 2019: versão 2.92

O Databricks Light (também conhecido como Data Engineering Light) já está disponível. O Databricks Light é o empacotamento do Databricks do runtime do Apache Spark de código aberto. Ele fornece uma opção de tempo de execução para trabalhos que não precisam do desempenho avançado, confiabilidade ou benefícios de dimensionamento automático fornecidos pelo Databricks Runtime. Você pode selecionar apenas o Databricks Light ao criar um cluster para executar um trabalho JAR, Python ou Spark-Submit; não é possível selecionar esse tempo de execução para clusters nos quais você executa cargas de trabalho interativas ou de notebook. Confira Databricks Light.

MLflow gerenciado na visualização pública Azure Databricks

26 de fevereiro – 5 de março de 2019: versão 2.92

O MLflow é uma plataforma de fonte aberta para gerenciar o ciclo de vida de machine learning de ponta a ponta. Ele aborda três funções principais:

Acompanhar experimentos para registrar e comparar parâmetros e resultados.
Gerenciar e implantar modelos de uma variedade de bibliotecas de ML para uma variedade de plataformas de serviço e inferência de modelo.
Empacotar o código de ML em um formato reutilizável e reproduzível para compartilhá-lo com outros cientistas de dados ou transferi-lo para produção.

O Azure Databricks já fornece uma versão totalmente gerenciada e hospedada do MLflow integrada aos recursos de segurança corporativa, alta disponibilidade e outros recursos de workspace do Azure Databricks, como o gerenciamento de experimentos e execuções, além da captura de revisão de notebook. O MLflow no Azure Databricks oferece uma experiência integrada para acompanhamento e proteção de execuções de treinamento de modelo de machine learning e execução de projetos de Machine Learning. Ao usar o MLflow gerenciado no Azure Databricks, você obterá as vantagens das duas plataformas, incluindo:

Workspaces: acompanhe e organize de maneira colaborativa experimentos e resultados no workspace do Azure Databricks com um Servidor de Acompanhamento do MLflow hospedado e a interface do usuário do experimento integrada. Quando você usa o MLflow em notebooks, o Azure Databricks captura automaticamente as revisões do notebook para que você possa reproduzir o mesmo código e executá-lo posteriormente.
Segurança: aproveite um modelo de segurança comum para todo o ciclo de vida de ML por meio de ACLs.
Trabalhos: execute projetos do MLflow como trabalhos do Azure Databricks remota e diretamente em notebook do Azure Databricks.

Esta é uma demonstração de um fluxo de trabalho de acompanhamento em um workspace do Azure Databricks:

Track runs and organize experiment workflow

Para obter detalhes, confira Acompanhar as execuções de treinamento de ML e aprendizado profundo e Executar projetos do MLflow no Azure Databricks.

O conector do Azure Data Lake Storage Gen2 está disponível ao público em geral

15 de fevereiro de 2019

O ADLS Gen2 (Azure Data Lake Storage Gen2), a solução de data lake de última geração para análise de Big Data, já está em GA, assim como o conector do ADLS Gen2 para Azure Databricks. Também temos o prazer de anunciar que o ADLS Gen2 dá suporte ao Databricks Delta quando você executa clusters no Databricks Runtime 5.2 e superior.

O Python 3 agora é o padrão quando você cria clusters

12 a 19 de fevereiro de 2019: versão 2.91

A versão padrão do Python para clusters criados por meio da interface do usuário mudou do Python 2 para o Python 3. O padrão para clusters criados por meio da API REST ainda é o Python 2.

Os clusters existentes não vão alterar as respectivas versões do Python. Mas se você tiver o hábito de usar o padrão do Python 2 ao criar clusters, precisará começar a prestar atenção à seleção de versão do Python.

Default Python version

Delta Lake disponível para o público geral

1º de fevereiro de 2019

Agora todos podem obter os benefícios da camada de armazenamento transacional eficiente avançada e das leituras super-rápidas do Databricks Delta: desde 1º de fevereiro, o Delta Lake entrou em GA e está disponível em todas as versões compatíveis do Databricks Runtime. Para obter informações sobre o Delta, veja O que é Delta Lake?.