Maio de 2020

Estas funcionalidades e as melhorias na plataforma Azure Databricks foram lançadas em maio de 2020.

Nota

Os lançamentos são encenados. A sua conta Azure Databricks só poderá ser atualizada uma semana após a data de lançamento inicial.

VMs da série Easv4 (Beta)

29 de maio de 2020

A Azure Databricks agora fornece suporte Beta para VMs da série Easv4, que usam um SSD premium e podem alcançar uma frequência máxima aumentada de 3.35GHz. Estes tipos de exemplos podem otimizar o desempenho da sua carga de trabalho para aplicações empresariais intensivas em memória.

Disponibilidade geral do Databricks Runtime 6.6 para o Genomics

26 de maio de 2020

Databricks Runtime 6.6 para Genómica é construído em cima de Databricks Runtime 6.6 e inclui as seguintes novas funcionalidades:

  • Leitor GFF3
  • Suporte personalizado do genoma de referência
  • Intervalos de tempo do gasoduto por amostra
  • Opção de exportação BAM
  • Bolhas manifestas

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 para Genomics (Não suportada).

Disponibilidade Geral do Databricks Runtime 6.6 ML

26 de maio de 2020

Databricks Runtime 6.6 ML é construído em cima de Databricks Runtime 6.6 e inclui as seguintes novas funcionalidades:

  • Mlflow atualizado: 1.7.0 a 1.8.0

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 ML (Não suportadas).

Disponibilidade Geral do Databricks Runtime 6.6

26 de maio de 2020

Databricks Runtime 6.6 traz muitas atualizações da biblioteca e novas funcionalidades, incluindo as seguintes funcionalidades do Delta Lake:

  • Pode agora evoluir automaticamente o esquema da tabela com a merge operação. Isto é útil em cenários em que pretende aumentar os dados numa tabela e o esquema dos dados muda ao longo do tempo. Em vez de detetar e aplicar alterações de esquema antes de aumentar, merge pode simultaneamente evoluir o esquema e aumentar as alterações. Ver evolução automática do esquema.
  • O desempenho das operações de fusão que apenas corresponderam às cláusulas, ou seja, só têm update e delete ações e nenhuma insert ação, foi melhorado.
  • As mesas de parquet que são referenciadas na metastore da Colmeia são agora descapotáveis para o Lago Delta através dos seus identificadores de mesa usando CONVERT TO DELTA .

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 (Não suportadas).

Limite de tamanho do ponto final de eliminação da API REST do DBFS

21 a 28 de maio de 2020: Versão 3.20

Quando elimina um grande número de ficheiros com recurso à API DBFS,a operação de eliminação é feita em incrementos. A chamada retorna uma resposta após aproximadamente 45s com uma mensagem de erro a pedir-lhe para voltar a invocar a operação de eliminação até que a estrutura do diretório seja totalmente eliminada. Por exemplo:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Ver facilmente grandes números de modelos registados do MLflow

21 a 28 de maio de 2020: Versão 3.20

O Registo de Modelos MLflow suporta agora a pesquisa e a paginação do lado do servidor para modelos registados, o que permite que organizações com um grande número de modelos realizem uma listagem e pesquisa eficientes. Como antes, pode pesquisar modelos pelo nome e obter resultados encomendados pelo nome ou pela última vez atualizada. No entanto, se tiver um grande número de modelos, as páginas serão carregadas muito mais rapidamente, e a pesquisa irá obter a visão mais atualizada dos modelos.

As bibliotecas configuradas para serem instaladas em todos os clusters não são instaladas em clusters que executam o Databricks Runtime 7.0 e posterior

21 a 28 de maio de 2020: Versão 3.20

Em Databricks Runtime 7.0 ou superior, a versão subjacente de Apache Spark usa Scala 2.12. Uma vez que as bibliotecas compiladas contra o Scala 2.11 podem desativar os clusters Databricks Runtime 7.0 de formas inesperadas, os agrupamentos que executam databricks Runtime 7.0 ou superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. O separador de bibliotecas de cluster mostra um estado Skipped e uma mensagem de depreciação relacionadas com as alterações no manuseamento da biblioteca.

Se tiver um cluster que foi criado numa versão anterior do Databricks Runtime antes do 3.20 ter sido lançado para o seu espaço de trabalho, e agora editar esse cluster para utilizar databricks Runtime 7.0, quaisquer bibliotecas que tenham sido configuradas para serem instaladas em todos os clusters serão instaladas nesse cluster. Neste caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem causar a desativação do cluster. A solução é clonar o cluster ou criar um novo cluster.

Disponibilidade geral do Databricks Runtime 7.0 para o Genomics (Beta)

21 de maio de 2020

Databricks O tempo de execução 7.0 para genómica é construído em cima do Databricks Runtime 7.0 e inclui as seguintes alterações na biblioteca:

  • A biblioteca ADAM foi atualizada da versão 0.30.0 para 0.32.0.
  • A biblioteca Hail não está incluída no Databricks Runtime 7.0 para a Genómica, uma vez que não existe nenhuma versão baseada no Apache Spark 3.0.

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 7.0 para Genomics (Não suportada).

Databricks Runtime 7.0 ML (Beta)

21 de maio de 2020

Databricks Runtime 7.0 ML é construído em cima de Databricks Runtime 7.0 e inclui as seguintes novas funcionalidades:

  • Bibliotecas Python com âmbito de portátil e ambientes personalizados geridos por comandos conda e pip.
  • Atualizações para os principais pacotes Python, incluindo tensorflow, tensorboard, pytorch, xgboost, sparkdl e hiperopt.
  • Recém-adicionado Python pacotes lightgbm, nltk, petastorm, e plotly.
  • RStudio Server Open Source v1.2.

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 7.0 ML (Não suportado).

Disponibilidade geral do Databricks Runtime 6.6 para o Genomics (Beta)

7 de maio de 2020

Databricks Runtime 6.6 para Genómica é construído em cima de Databricks Runtime 6.6 e inclui as seguintes novas funcionalidades:

  • Leitor GFF3
  • Suporte personalizado do genoma de referência
  • Intervalos de tempo do gasoduto por amostra
  • Opção de exportação BAM
  • Bolhas manifestas

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 para Genomics (Não suportada).

Databricks Runtime 6.6 ML (Beta)

7 de maio de 2020

Databricks Runtime 6.6 ML é construído em cima de Databricks Runtime 6.6 e inclui as seguintes novas funcionalidades:

  • Mlflow atualizado: 1.7.0 a 1.8.0

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 ML (Não suportadas).

Databricks Runtime 6.6 (Beta)

7 de maio de 2020

Databricks Runtime 6.6 (Beta) traz muitas atualizações da biblioteca e novas funcionalidades, incluindo as seguintes funcionalidades do Delta Lake:

  • Pode agora evoluir automaticamente o esquema da tabela com a merge operação. Isto é útil em cenários em que pretende aumentar os dados numa tabela e o esquema dos dados muda ao longo do tempo. Em vez de detetar e aplicar alterações de esquema antes de aumentar, merge pode simultaneamente evoluir o esquema e aumentar as alterações. Ver evolução automática do esquema.
  • O desempenho das operações de fusão que apenas corresponderam às cláusulas, ou seja, só têm update e delete ações e nenhuma insert ação, foi melhorado.
  • As mesas de parquet que são referenciadas na metastore da Colmeia são agora descapotáveis para o Lago Delta através dos seus identificadores de mesa usando CONVERT TO DELTA .

Para obter mais informações, consulte as notas completas de lançamento databricks Runtime 6.6 (Não suportadas).

Os clusters de tarefas agora estão identificados com o nome e ID da tarefa

5 a 12 de maio de 2020: Versão 3.19

Os agrupamentos de emprego são automaticamente marcados com o nome do trabalho e identificação. As tags aparecem nos relatórios de utilização faturantes para que possa facilmente atribuir o seu uso DBU por trabalho e identificar anomalias. As etiquetas são higienizadas para as especificações da etiqueta do cluster, tais como caracteres permitidos, tamanho máximo e número máximo de tags. O nome do trabalho está contido na RunName etiqueta e a identificação do trabalho está contida na JobId etiqueta.

Restaurar células de blocos de notas eliminadas

5 a 12 de maio de 2020: Versão 3.19

Pode agora restaurar as células eliminadas utilizando o Z atalho do teclado () ou selecionando Editar > desfazer as células de apagar.

Limite da fila de trabalhos pendentes

5 a 12 de maio de 2020: Versão 3.19

Um espaço de trabalho está agora limitado a 1000 trabalhos ativos (em execução e pendentes). Uma vez que um espaço de trabalho está limitado a 150 execuções de trabalho simultâneas (em execução), um espaço de trabalho pode ter até 850 corridas na fila pendente.