Maio de 2020

Esses recursos e melhorias na plataforma Azure Databricks foram lançados em maio de 2020.

Nota

Os lançamentos são encenados. Sua conta do Azure Databricks pode não ser atualizada até uma semana após a data de lançamento inicial.

VMs da série Easv4 (Beta)

29 de maio de 2020

O Azure Databricks agora fornece suporte Beta para VMs da série Easv4, que usam um SSD premium e podem atingir uma frequência máxima aumentada de 3,35 GHz. Esses tipos de instância podem otimizar o desempenho da carga de trabalho para aplicativos corporativos que consomem muita memória.

Disponibilidade geral do Databricks Runtime 6.6 para o Genomics

26 de maio de 2020

O Databricks Runtime 6.6 for Genomics foi criado com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Leitor GFF3
  • Suporte de genoma de referência personalizado
  • Tempos limite de pipeline por amostra
  • Opção de exportação BAM
  • Blobs de manifesto

Disponibilidade Geral do Databricks Runtime 6.6 ML

26 de maio de 2020

O Databricks Runtime 6.6 ML é construído sobre o Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Mlflow atualizado: 1.7.0 para 1.8.0

Para obter mais informações, consulte as notas de versão completas do Databricks Runtime 6.6 ML (sem suporte).

Disponibilidade Geral do Databricks Runtime 6.6

26 de maio de 2020

O Databricks Runtime 6.6 traz muitas atualizações de biblioteca e novos recursos, incluindo os seguintes recursos do Delta Lake:

  • Agora você pode evoluir o esquema da tabela automaticamente com a merge operação. Isso é útil em cenários em que você deseja atualizar dados de alteração em uma tabela e o esquema dos dados muda ao longo do tempo. Em vez de detetar e aplicar alterações de esquema antes de atualizar, merge pode simultaneamente evoluir o esquema e atualizar as alterações. Consulte Evolução automática do esquema para mesclagem Delta Lake.
  • O desempenho das operações de fusão que apenas corresponderam a cláusulas, ou seja, que têm apenas update e delete ações e nenhuma insert ação, foi melhorado.
  • As tabelas de parquet referenciadas no metastore do Hive agora são conversíveis em Delta Lake por meio de seus identificadores de tabela usando CONVERT TO DELTA.

Para obter mais informações, consulte as notas de versão completas do Databricks Runtime 6.6 (sem suporte).

Limite de tamanho do ponto final de eliminação da API REST do DBFS

21 a 28 de maio de 2020: Versão 3.20

Quando você exclui um grande número de arquivos recursivamente usando a API DBFS, a operação de exclusão é feita em incrementos. A chamada retorna uma resposta após aproximadamente 45s com uma mensagem de erro solicitando que você invoque novamente a operação de exclusão até que a estrutura de diretórios seja totalmente excluída. Por exemplo:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Ver facilmente grandes números de modelos registados do MLflow

21 a 28 de maio de 2020: Versão 3.20

O MLflow Model Registry agora suporta pesquisa no lado do servidor e paginação para modelos registrados, o que permite que organizações com um grande número de modelos realizem listagens e pesquisas de forma eficiente. Como antes, você pode pesquisar modelos por nome e obter resultados ordenados por nome ou pela última hora atualizada. No entanto, se você tiver um grande número de modelos, as páginas carregarão muito mais rápido e a pesquisa buscará a visualização mais atualizada dos modelos.

As bibliotecas configuradas para serem instaladas em todos os clusters não são instaladas em clusters que executam o Databricks Runtime 7.0 e posterior

21 a 28 de maio de 2020: Versão 3.20

No Databricks Runtime 7.0 e superior, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas de cluster mostra um status Skipped e uma mensagem de preterição relacionados às alterações no tratamento da biblioteca.

Se você tiver um cluster que foi criado em uma versão anterior do Databricks Runtime antes da versão 3.20 ser lançada em seu espaço de trabalho e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas nesse cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desativado. A solução alternativa é clonar o cluster ou criar um novo cluster.

Disponibilidade geral do Databricks Runtime 7.0 para o Genomics (Beta)

21 de maio de 2020

O Databricks Runtime 7.0 for Genomics foi criado sobre o Databricks Runtime 7.0 e inclui as seguintes alterações na biblioteca:

  • A biblioteca do ADAM foi atualizada da versão 0.30.0 para 0.32.0.
  • A biblioteca Hail não está incluída no Databricks Runtime 7.0 for Genomics, pois não há nenhuma versão baseada no Apache Spark 3.0.

Databricks Runtime 7.0 ML (Beta)

21 de maio de 2020

O Databricks Runtime 7.0 ML foi criado sobre o Databricks Runtime 7.0 e inclui os seguintes novos recursos:

  • Bibliotecas Python com escopo de notebook e ambientes personalizados gerenciados por comandos conda e pip.
  • Atualizações para os principais pacotes Python, incluindo tensorflow, tensorboard, pytorch, xgboost, sparkdl e hyperopt.
  • Pacotes Python recém-adicionados lightgbm, nltk, petastorm e plotly.
  • Servidor RStudio Open Source v1.2.

Para obter mais informações, consulte as notas de versão completas do Databricks Runtime 7.0 ML (sem suporte).

Disponibilidade geral do Databricks Runtime 6.6 para o Genomics (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 for Genomics foi criado com base no Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Leitor GFF3
  • Suporte de genoma de referência personalizado
  • Tempos limite de pipeline por amostra
  • Opção de exportação BAM
  • Blobs de manifesto

Databricks Runtime 6.6 ML (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 ML é construído sobre o Databricks Runtime 6.6 e inclui os seguintes novos recursos:

  • Mlflow atualizado: 1.7.0 para 1.8.0

Para obter mais informações, consulte as notas de versão completas do Databricks Runtime 6.6 ML (sem suporte).

Databricks Runtime 6.6 (Beta)

7 de maio de 2020

O Databricks Runtime 6.6 (Beta) traz muitas atualizações de biblioteca e novos recursos, incluindo os seguintes recursos do Delta Lake:

  • Agora você pode evoluir o esquema da tabela automaticamente com a merge operação. Isso é útil em cenários em que você deseja atualizar dados de alteração em uma tabela e o esquema dos dados muda ao longo do tempo. Em vez de detetar e aplicar alterações de esquema antes de atualizar, merge pode simultaneamente evoluir o esquema e atualizar as alterações. Consulte Evolução automática do esquema para mesclagem Delta Lake.
  • O desempenho das operações de fusão que apenas corresponderam a cláusulas, ou seja, que têm apenas update e delete ações e nenhuma insert ação, foi melhorado.
  • As tabelas de parquet referenciadas no metastore do Hive agora são conversíveis em Delta Lake por meio de seus identificadores de tabela usando CONVERT TO DELTA.

Para obter mais informações, consulte as notas de versão completas do Databricks Runtime 6.6 (sem suporte).

Os clusters de tarefas agora estão identificados com o nome e ID da tarefa

5 a 12 de maio de 2020: Versão 3.19

Os clusters de trabalho são automaticamente marcados com o nome e o ID do trabalho. As tags aparecem nos relatórios de uso faturável para que você possa facilmente atribuir seu uso de DBU por tarefa e identificar anomalias. As tags são limpas de acordo com as especificações de tags de cluster, como caracteres permitidos, tamanho máximo e número máximo de tags. O nome do trabalho está contido na RunName tag e o ID do trabalho está contido na JobId tag.

Restaurar células de blocos de notas eliminadas

5 a 12 de maio de 2020: Versão 3.19

Agora você pode restaurar células excluídas usando o atalho de teclado (Z) ou selecionando Editar > Desfazer Excluir Células.

Limite da fila de trabalhos pendentes

5 a 12 de maio de 2020: Versão 3.19

Um espaço de trabalho agora está limitado a 1000 execuções de trabalho ativas (em execução e pendentes). Como um espaço de trabalho é limitado a 150 execuções de trabalho simultâneas (em execução), um espaço de trabalho pode ter até 850 execuções na fila pendente.