Setembro de 2020

Artigo
05/03/2024

Esses recursos e melhorias na plataforma Azure Databricks foram lançados em setembro de 2020.

Nota

Os lançamentos são encenados. Sua conta do Azure Databricks pode não ser atualizada até uma semana após a data de lançamento inicial.

O Databricks Runtime 7.3, 7.3 ML e 7.3 Genomics estão agora em disponibilidade geral

24 de setembro de 2020

O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics estão agora disponíveis em geral. Eles trazem muitos recursos e melhorias, incluindo:

As otimizações de desempenho do Delta Lake reduzem significativamente a sobrecarga
Métricas de clonagem
Melhorias no Lago MERGE INTO Delta
Especifique a posição inicial para Delta Lake Structured Streaming
Melhorias no Auto Loader
Execução de consultas adaptável
Controle de comprimento da coluna do conector do Azure Synapse Analytics
Comportamento melhorado de dbutils.credentials.showRoles
Conversão simplificada de pandas para Spark DataFrame
Novo maxResultSize em toPandas() chamada
Depuração de pandas e UDFs PySpark
(Apenas ML) Ativação do Conda nos trabalhadores
(Apenas genómica) Suporte para leitura de arquivos BGEN com genótipos não compactados ou compactados com zstd
Atualizações da biblioteca

Para obter mais informações, consulte Databricks Runtime 7.3 LTS (sem suporte) e Databricks Runtime 7.3 LTS para Machine Learning (sem suporte).

Clusters de Nó Único (Pré-visualização Pública)

23 a 29 de setembro de 2020: Versão 3.29

Um cluster de nó único é um cluster que consiste em um driver Spark e nenhum trabalhador Spark. Por outro lado, os clusters de modo padrão exigem pelo menos um trabalhador do Spark para executar trabalhos do Spark. Os clusters de modo de nó único são úteis nas seguintes situações:

Executando cargas de trabalho de aprendizado de máquina de nó único que precisam do Spark para carregar e salvar dados
Análise exploratória de dados leve (EDA)

Para obter detalhes, consulte Computação de nó único ou de vários nós.

Limitação de taxa da API REST do DBFS

23 a 29 de setembro de 2020: Versão 3.29

Para garantir alta qualidade de serviço sob carga pesada, o Azure Databricks agora está impondo limites de taxa de API para chamadas de API DBFS. Os limites são definidos por espaço de trabalho para garantir o uso justo e a alta disponibilidade. Tentativas automáticas estão disponíveis usando a CLI do Databricks versão 0.12.0 e superior. Aconselhamos todos os clientes a mudar para a versão mais recente da CLI do Databricks.

23 a 29 de setembro de 2020

Atualizámos a barra lateral na IU do espaço de trabalho do Azure Databricks. Não é grande coisa, mas achamos que os novos ícones parecem muito bons.

barra lateral

Aumento do limite de trabalhos em execução

23 a 29 de setembro de 2020: Versão 3.29

O limite de execução simultânea de tarefas foi aumentado de 150 para 1000 por espaço de trabalho. Não haverá mais execuções acima de 150 ser enfileirado no estado pendente. Em vez de uma fila para solicitações de execução acima de execuções simultâneas, uma 429 Too Many Requests resposta é retornada quando você solicita uma execução que não pode ser iniciada imediatamente. Esse aumento de limite foi implementado gradualmente e agora está disponível em todos os espaços de trabalho em todas as regiões.

Listas de controlo de acesso (ACL) de artefactos no MLflow

23 a 29 de setembro de 2020: Versão 3.29

As permissões do MLflow Experiment agora são impostas a artefatos no MLflow Tracking, permitindo que você controle facilmente o acesso aos seus modelos, conjuntos de dados e outros arquivos. Por padrão, quando você cria um novo experimento, seus artefatos de execução agora são armazenados em um local gerenciado pelo MLflow. Os quatro níveis de permissões do MLflow Experiment (NO PERMISSIONS, CAN READ, CAN EDIT e CAN MANAGE) aplicam-se automaticamente à execução de artefatos armazenados em locais gerenciados pelo MLflow da seguinte maneira:

As permissões CAN EDIT ou CAN MANAGE são necessárias para registrar artefatos de execução em um experimento.
As permissões CAN READ são necessárias para listar e baixar artefatos de execução de um experimento.

Para obter mais informações, consulte ACLs de experimento MLFlow.

Melhoramentos à usabilidade do MLflow

23 a 29 de setembro de 2020: Versão 3.29

Esta versão inclui as seguintes melhorias de usabilidade do MLflow:

As páginas MLflow Experiment e Registered Models agora têm dicas para ajudar novos usuários a começar.
A tabela de versão do modelo agora mostra o texto de descrição para uma versão do modelo. Uma nova coluna mostra os primeiros 32 caracteres ou a primeira linha (o que for mais curto) da descrição.

Novo conector do Power BI do Azure Databricks (Visualização Pública)

22 de setembro de 2020

O Power BI Desktop versão 2.85.681.0 inclui um novo conector do Power BI do Azure Databricks que torna a integração entre o Azure Databricks e o Power BI muito mais fácil e confiável. O novo conector vem com as seguintes melhorias:

Configuração de conexão simples: o novo conector Power BI Azure Databricks é integrado ao Power BI e você o configura usando uma caixa de diálogo simples com alguns cliques.
Autenticação baseada em credenciais do Microsoft Entra ID — não é mais necessário que os administradores configurem tokens PAT.
Importações mais rápidas e chamadas de metadados otimizadas, graças ao novo driver ODBC do Azure Databricks, que vem com melhorias significativas de desempenho.
O acesso aos dados do Azure Databricks através do Power BI respeita o controlo de acesso à tabela do Azure Databricks e as permissões da conta de armazenamento do Azure associadas à sua identidade de ID do Microsoft Entra.

Para obter mais informações, consulte Conectar o Power BI ao Azure Databricks.

Utilizar chaves geridas pelo cliente para raiz DBFS (Pré-visualização Pública)

15 de setembro de 2020

Agora você pode usar sua própria chave de criptografia no Cofre de Chaves do Azure para criptografar a conta de armazenamento DBFS. Consulte Chaves gerenciadas pelo cliente para raiz DBFS.

Os novos controladores JDBC e ODBC proporcionam BI mais rápida e com menor latência

15 de setembro de 2020

Lançamos novas versões dos drivers Databricks JDBC e ODBC (download) com as seguintes melhorias:

Desempenho: Conexão reduzida e latência de consulta curta, velocidade de transferência de resultados aprimorada com base na serialização Apache Arrow e melhor desempenho de recuperação de metadados.
Experiência do usuário: Autenticação usando tokens de acesso OAuth2 do Microsoft Entra ID, mensagens de erro aprimoradas e repetição automática ao se conectar a um cluster de desligamento, tratamento mais robusto de novas tentativas em erros de rede intermitentes.
Suporte para conexões usando proxy HTTP.

Para obter mais informações sobre como se conectar a ferramentas de BI usando JDBC e ODBC, consulte Databricks ODBC e JDBC Drivers.

MLflow Model Serving (Pré-visualização Pública)

9 a 15 de setembro de 2020: Versão 3.28

O MLflow Model Serving está agora disponível na Pré-visualização Pública. O MLflow Model Serving permite implantar um modelo MLflow registrado no Registro Modelo como um ponto de extremidade da API REST hospedado e gerenciado pelo Azure Databricks. Quando você habilita o serviço de modelo para um modelo registrado, o Azure Databricks cria um cluster e implanta todas as versões não arquivadas desse modelo.

Você pode consultar todas as versões do modelo por solicitações de API REST com a autenticação padrão do Azure Databricks. Os direitos de acesso ao modelo são herdados do Registro do modelo — qualquer pessoa com direitos de leitura para um modelo registrado pode consultar qualquer uma das versões do modelo implantado. Enquanto esse serviço estiver em visualização, recomendamos seu uso para aplicativos de baixa taxa de transferência e não críticos.

Para obter mais informações, consulte Legacy MLflow Model Serving on Azure Databricks.

Melhorias de IU dos clusters

9 a 15 de setembro de 2020: Versão 3.28

A página Clusters agora tem guias separadas para Clusters para Todos os Fins e Clusters de Trabalho. A lista em cada guia agora está paginada. Além disso, corrigimos o atraso que às vezes ocorria entre a criação de um cluster e a possibilidade de vê-lo na interface do usuário.

Controlos de visibilidade para trabalhos, clusters, blocos de notas e outros objetos da área de trabalho

9 a 15 de setembro de 2020: Versão 3.28

Por padrão, qualquer usuário pode ver todos os trabalhos, clusters, blocos de anotações e pastas em seu espaço de trabalho exibidos na interface do usuário do Azure Databricks e pode listá-los usando a API do Databricks, mesmo quando o controle de acesso está habilitado para esses objetos e um usuário não tem permissões nesses objetos.

Agora, qualquer administrador do Azure Databricks pode habilitar controles de visibilidade para blocos de anotações e pastas (objetos de espaço de trabalho), clusters e trabalhos para garantir que os usuários possam exibir apenas os objetos aos quais receberam acesso por meio do controle de acesso de espaço de trabalho, cluster ou trabalhos.

Consulte As listas de controlos de acesso já não podem ser desativadas.

A capacidade para criar tokens já não é permitida por predefinição

9 a 15 de setembro de 2020: Versão 3.28

Para espaços de trabalho criados após o lançamento da plataforma Azure Databricks versão 3.28, os usuários não terão mais a capacidade de gerar tokens de acesso pessoal por padrão. Os administradores devem conceder explicitamente essas permissões, seja para todo users o grupo ou usuário a usuário ou grupo a grupo. Os espaços de trabalho criados antes do lançamento da versão 3.28 manterão as permissões que já estavam em vigor.

Consulte Monitorar e gerenciar tokens de acesso pessoal.

9 de setembro de 2020

O Azure Databricks agora dá suporte ao acesso ao registro do modelo a partir de vários espaços de trabalho. Agora você pode registrar modelos, acompanhar execuções de modelos e carregar modelos em espaços de trabalho. Várias equipes agora podem compartilhar o acesso a modelos, e as organizações podem usar vários espaços de trabalho para lidar com os diferentes estágios de desenvolvimento. Para obter detalhes, consulte Compartilhar modelos entre espaços de trabalho.

Esta funcionalidade requer o cliente Python MLflow versão 1.11.0 ou superior.

Databricks Runtime 7.3 (Beta)

3 de setembro de 2020

O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics estão agora disponíveis como versões Beta.

Para obter informações, consulte Databricks Runtime 7.3 LTS (sem suporte) e Databricks Runtime 7.3 LTS para Machine Learning (sem suporte).

Alteração de nome do tipo de carga de trabalho do Azure Databricks

1 de setembro de 2020

Os nomes dos tipos de carga de trabalho usados pelos clusters foram alterados:

Engenharia de Dados -> Empregos Computação
Data Engineering Light -> Empregos Light Compute
Análise de dados -> Computação para todos os fins

Esses novos nomes aparecerão nas faturas e no portal da EA em combinação com seu plano de preços (por exemplo, "Premium - Jobs Compute - DBU"). Para obter detalhes, consulte Azure Databricks Meters.

A interface do usuário também mudou na versão 3.27 da plataforma (prevista para lançamento em etapas entre 25 de agosto e 3 de setembro):

Na página Clusters, os cabeçalhos da lista foram alterados:

Clusters interativos -> Clusters multiusos
Clusters automatizados -> Clusters de trabalho

Quando você configura um cluster para um trabalho, as opções Tipo de Cluster foram alteradas:

Novo cluster automatizado -> Novo cluster de tarefas
Cluster interativo existente -> Cluster multiuso existente

Setembro de 2020

O Databricks Runtime 7.3, 7.3 ML e 7.3 Genomics estão agora em disponibilidade geral

Clusters de Nó Único (Pré-visualização Pública)

Limitação de taxa da API REST do DBFS

Novos ícones da barra lateral

Aumento do limite de trabalhos em execução

Listas de controlo de acesso (ACL) de artefactos no MLflow

Melhoramentos à usabilidade do MLflow

Novo conector do Power BI do Azure Databricks (Visualização Pública)

Utilizar chaves geridas pelo cliente para raiz DBFS (Pré-visualização Pública)

Os novos controladores JDBC e ODBC proporcionam BI mais rápida e com menor latência

MLflow Model Serving (Pré-visualização Pública)

Melhorias de IU dos clusters

Controlos de visibilidade para trabalhos, clusters, blocos de notas e outros objetos da área de trabalho

A capacidade para criar tokens já não é permitida por predefinição

Databricks Runtime 7.3 (Beta)

Alteração de nome do tipo de carga de trabalho do Azure Databricks

Comentários

Comentários

Recursos adicionais

Setembro de 2020

O Databricks Runtime 7.3, 7.3 ML e 7.3 Genomics estão agora em disponibilidade geral

Clusters de Nó Único (Pré-visualização Pública)

Limitação de taxa da API REST do DBFS

Novos ícones da barra lateral

Aumento do limite de trabalhos em execução

Listas de controlo de acesso (ACL) de artefactos no MLflow

Melhoramentos à usabilidade do MLflow

Novo conector do Power BI do Azure Databricks (Visualização Pública)

Utilizar chaves geridas pelo cliente para raiz DBFS (Pré-visualização Pública)

Os novos controladores JDBC e ODBC proporcionam BI mais rápida e com menor latência

MLflow Model Serving (Pré-visualização Pública)

Melhorias de IU dos clusters

Controlos de visibilidade para trabalhos, clusters, blocos de notas e outros objetos da área de trabalho

A capacidade para criar tokens já não é permitida por predefinição

O Registo de Modelos do MLflow suporta a partilha de modelos em todas as áreas de trabalho

Databricks Runtime 7.3 (Beta)

Alteração de nome do tipo de carga de trabalho do Azure Databricks

Comentários

Comentários

Recursos adicionais