Abril de 2019

Artigo
03/01/2024

Esses recursos e melhorias da plataforma Azure Databricks foram lançados em abril de 2019.

Observação

As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.

MLflow no Azure Databricks (GA)

25 de abril de 2019

O Managed MLflow no Azure Databricks já está disponível para o público em geral. O MLflow no Azure Databricks oferece uma versão hospedada do MLflow totalmente integrada ao modelo de segurança do Databricks e ao espaço de trabalho interativo. Confira o Gerenciamento do ciclo de vida do ML usando o MLflow.

Delta Lake no Azure Databricks

24 de abril de 2019

A Databricks abriu o código do Delta Lake. O Delta Lake é uma camada de armazenamento que traz confiabilidade para data lakes com base no HDFS e no armazenamento em nuvem, fornecendo transações ACID por meio do controle de simultaneidade otimista entre gravações e isolamento de instantâneo para leituras consistentes durante gravações. O Delta Lake também fornece controle de versão de dados integrado para facilitar reversões e reproduções de relatórios.

Observação

O que era chamado de Delta do Databricks agora é o projeto de código aberto Delta Lake, além de otimizações disponíveis no Azure Databricks. Veja O que é o Delta Lake?.

9 a 16 de abril de 2019: Versão 2.95

Agora você pode exibir as execuções do MLflow e as revisões do notebook que produziram essas execuções em uma barra lateral ao lado do notebook. Na barra lateral direita do notebook, clique no ícone Experimento Experiment icon .

Confira Criar experimento de notebook.

Acessar o Azure Data Lake Storage Gen1 e Gen2 automaticamente com suas credenciais do Microsoft Entra ID (GA)

9 a 16 de abril de 2019: Versão 2.95

Temos o prazer de anunciar a disponibilidade geral da autenticação automática para o Azure Data Lake Storage Gen1 e Gen2 de clusters do Azure Databricks usando a mesma identidade do Microsoft Entra ID que você usa para fazer logon no Azure Databricks.

Basta habilitar seu cluster para a passagem de credenciais do Microsoft Entra ID, e os comandos que você executa nesse cluster poderão ler e gravar seus dados no Azure Data Lake Storage Gen1 e Gen2 sem exigir que você configure credenciais da entidade de serviço para acesso ao armazenamento.

Para obter mais informações, confira Acessar o Azure Data Lake Storage usando a passagem de credenciais do Microsoft Entra ID (antigo Azure Active Directory) (herdado).

Databricks Runtime 5.3 (GA)

3 de abril de 2019

O Databricks Runtime 5.3 agora está disponível para o público em geral. O Databricks Runtime 5.3 inclui novos recursos e atualizações do Delta Lake e bibliotecas Python, R, Java e Scala atualizadas.

As principais atualizações incluem:

GA de viagem no tempo do Databricks Delta
Replicação de tabela do MySQL para o Delta, Versão Prévia Pública
Pasta FUSE do DBFS otimizada para cargas de trabalho de aprendizado profundo
Melhorias na biblioteca no escopo do notebook
Novas dicas do Assistente do Databricks

Para obter detalhes, consulte Databricks Runtime 5.3 (não suportado).

Databricks Runtime 5.3 ML (GA)

3 de abril de 2019

Com o Databricks Runtime 5.3 para Machine Learning, alcançamos nosso primeiro GA do Databricks Runtime ML! O Databricks Runtime ML fornece um ambiente pronto para uso em aprendizado de máquina e ciência de dados. Ele foi criado com base no Databricks Runtime e contém muitas bibliotecas de aprendizado de máquina populares, inclusive TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído usando Horovod.

Essa versão foi criada com base no Databricks Runtime 5.3, com bibliotecas adicionais, algumas versões de biblioteca diferentes e gerenciamento de pacotes do Conda para bibliotecas Python. Os principais novos recursos desde o Databricks Runtime 5.2 ML Beta incluem:

Integração do MLlib ao MLflow (Versão Prévia Privada), que fornece registro automático de execuções do MLflow para ajuste de modelos com o uso dos algoritmos ajuste CrossValidator e TrainValidationSplit do PySpark.

Se você desejar participar da versão prévia, contate a equipe da sua conta do Databricks.
Atualizações para as bibliotecas PyArrow, Horovod e TensorboardX.

A atualização para PyArrow adiciona a capacidade de usar BinaryType quando você executa a conversão baseada em Arrow e a disponibiliza UDF do Pandas.

Para obter mais informações, consulte Databricks Runtime 5.3 ML (sem suporte). Para obter instruções sobre como criar um cluster do Databricks Runtime ML, confira IA e machine learning no Databricks.