Maio de 2020

Esses recursos e melhorias da plataforma Azure Databricks foram lançados em maio de 2020.

Observação

As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.

VMs da série Easv4 (Beta)

29 de maio de 2020

O Azure Databricks agora fornece suporte Beta para VMs da série Easv4, que usam um SSD premium e podem atingir uma frequência máxima aumentada de 3,35 GHz. Esses tipos de instância podem otimizar o desempenho da carga de trabalho para aplicativos empresariais com uso intensivo de memória.

GA do Databricks Runtime 6.6 para Genomics

26 de maio de 2020

O Databricks Runtime 6.6 para Genomics foi desenvolvido com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Leitor de GFF3
  • Suporte a genoma de referência personalizado
  • Tempos limite de pipeline por amostra
  • Opção de exportação BAM
  • Blobs de manifesto

GA do Databricks Runtime 6.6 ML

26 de maio de 2020

O Databricks Runtime 6.6 ML foi desenvolvido com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Mlflow atualizado: 1.7.0 para 1.8.0

Para obter mais informações, confira as notas completas sobre a versão do Databricks Runtime 6.6 para ML (sem suporte).

GA do Databricks Runtime 6.6

26 de maio de 2020

O Databricks Runtime 6.6 traz muitas atualizações de biblioteca e novos recursos, incluindo os seguintes recursos do Delta Lake:

  • Você já pode desenvolver o esquema da tabela automaticamente com a operação merge. Isso é útil em cenários em que você deseja fazer upsert de dados de alteração em uma tabela e o esquema dos dados muda ao longo do tempo. Em vez de detectar e aplicar alterações de esquema antes do upsert, o merge pode desenvolver simultaneamente o esquema e fazer upsert das alterações. Confira Evolução automática de esquema para mesclagem do Delta Lake.
  • O desempenho das operações de mesclagem que têm apenas cláusulas correspondentes, ou seja, elas têm apenas ações update e delete e nenhuma ação insert, foi aprimorado.
  • As tabelas Parquet referenciadas no metastore do Hive já são conversíveis no Delta Lake por meio dos identificadores de tabela com CONVERT TO DELTA.

Para obter mais informações, confira as notas completas sobre a versão do Databricks Runtime 6.6 (sem suporte).

Limite de tamanho do ponto de extremidade de exclusão da API REST do DBFS

21 a 28 de maio de 2020 (versão 3.20)

Quando você exclui um grande número de arquivos recursivamente usando a API DBFS, a operação de exclusão é feita em incrementos. A chamada retorna uma resposta após aproximadamente 45s com uma mensagem de erro solicitando que você invoque novamente a operação de exclusão até que a estrutura de diretório seja totalmente excluída. Por exemplo:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Exibir facilmente um grande número de modelos registrados do MLflow

21 a 28 de maio de 2020 (versão 3.20)

O Registro de Modelo do MLflow agora dá suporte à pesquisa e à paginação do lado do servidor para modelos registrados, o que permite que organizações com um grande número de modelos executem com eficiência a listagem e a pesquisa. Como antes, você pode pesquisar modelos por nome e obter resultados ordenados por nome ou pela hora da última atualização. No entanto, se você tiver um grande número de modelos, as páginas serão carregadas muito mais rapidamente e a pesquisa buscará a exibição mais atualizada dos modelos.

As bibliotecas configuradas para serem instaladas em todos os clusters não estão instaladas em clusters que executam o Databricks Runtime 7.0 e superior

21 a 28 de maio de 2020 (versão 3.20)

No Databricks Runtime 7.0 e superior, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar os clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas do cluster mostra um status Skipped e uma mensagem de obsolescência relacionada às alterações no tratamento da biblioteca.

Se você tiver um cluster criado em uma versão anterior do Databricks Runtime antes da 3.20 ser lançada em seu espaço de trabalho, e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas naquele cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desabilitado. A solução alternativa é clonar o cluster ou criar um novo cluster.

Databricks Runtime 7.0 para Genomics (Beta)

21 de maio de 2020

O Databricks Runtime 7.0 para Genomics foi desenvolvido com base no Databricks Runtime 7.0 e inclui as seguintes atualizações de bibliotecas:

  • A biblioteca ADAM foi atualizada da versão 0.30.0 para 0.32.0.
  • A biblioteca Hail não está incluída no Databricks Runtime 7.0 para Genomics, pois não há nenhuma versão baseada no Apache Spark 3.0.

Databricks Runtime 7.0 ML (Beta)

21 de maio de 2020

O Databricks Runtime 7.0 ML foi desenvolvido com base no Databricks Runtime 7.0 e inclui os seguintes novos recursos:

  • Bibliotecas do Python no escopo do notebook e ambientes personalizados gerenciados por comandos do Conda e do Pip.
  • Atualizações para os principais pacotes do Python, incluindo tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
  • Pacotes do Python recém-adicionados: lightgbm, nltk, petastorm e plotly.
  • RStudio Server de código aberto v1.2.

Para obter mais informações, confira as notas completas sobre a versão do Databricks Runtime 7.0 para ML (sem suporte).

Databricks Runtime 6.6 para Genomics (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 para Genomics foi desenvolvido com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Leitor de GFF3
  • Suporte a genoma de referência personalizado
  • Tempos limite de pipeline por amostra
  • Opção de exportação BAM
  • Blobs de manifesto

Databricks Runtime 6.6 ML (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 ML foi desenvolvido com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Mlflow atualizado: 1.7.0 para 1.8.0

Para obter mais informações, confira as notas completas sobre a versão do Databricks Runtime 6.6 para ML (sem suporte).

Databricks Runtime 6.6 (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 (Beta) traz muitas atualizações de biblioteca e novos recursos, incluindo os seguintes recursos do Delta Lake:

  • Você já pode desenvolver o esquema da tabela automaticamente com a operação merge. Isso é útil em cenários em que você deseja fazer upsert de dados de alteração em uma tabela e o esquema dos dados muda ao longo do tempo. Em vez de detectar e aplicar alterações de esquema antes do upsert, o merge pode desenvolver simultaneamente o esquema e fazer upsert das alterações. Confira Evolução automática de esquema para mesclagem do Delta Lake.
  • O desempenho das operações de mesclagem que têm apenas cláusulas correspondentes, ou seja, elas têm apenas ações update e delete e nenhuma ação insert, foi aprimorado.
  • As tabelas Parquet referenciadas no metastore do Hive já são conversíveis no Delta Lake por meio dos identificadores de tabela com CONVERT TO DELTA.

Para obter mais informações, confira as notas completas sobre a versão do Databricks Runtime 6.6 (sem suporte).

Clusters de trabalho agora são marcados com o nome e a ID do trabalho

5 a 12 de maio de 2020 (versão 3.19)

Os clusters de trabalho são marcados automaticamente com o nome e a ID do trabalho. As marcações aparecem nos relatórios de uso faturáveis para que você possa atribuir facilmente seu uso de DBU por trabalho e identificar anomalias. As marcações são corrigidas de acordo com as especificações da marcação do cluster, como caracteres permitidos, tamanho máximo e número máximo de marcações. O nome do trabalho está contido na marcação RunName e a ID do trabalho está contida na marcação JobId.

Restaurar células do notebook excluídas

5 a 12 de maio de 2020 (versão 3.19)

Agora você pode restaurar células excluídas usando o atalho de teclado (Z) ou selecionando Editar > Desfazer Excluir Células.

Limite de fila de trabalhos pendentes

5 a 12 de maio de 2020 (versão 3.19)

Um espaço de trabalho agora está limitado a 1.000 execuções de trabalho ativas (em execução e pendentes). Como um espaço de trabalho limita-se a 150 execuções de trabalho simultâneas (em execução), um espaço de trabalho pode ter até 850 execuções na fila pendente.