Databricks Runtime 11.0 (sem suporte)

Artigo
03/01/2024

As notas sobre a versão a seguir fornecem informações sobre o Databricks Runtime 11.0 da plataforma Apache Spark 3.3.0. O Databricks lançou essas imagens em junho de 2022.

Novos recursos e aprimoramentos

Nova versão do Apache Spark
Agora, os notebooks Python usam o kernel IPython
Suporte para ipywidgets
O conector do Synapse agora grava dados Parquet no modo não herdado
O esquema HTTPS agora é imposto quando o cliente ABFS usa o token SAS
SQL: agora DESC é um alias para DESCRIBE
SQL: a nova função current_version gera detalhes da versão
Remover uma restrição de tabela Delta ausente agora gera um erro
SQL: a nova cláusula EXCEPT na instrução SELECT exclui colunas da seleção
Suporte para remover colunas em tabelas Delta (versão prévia pública)
COPY INTO melhorias
O CONVERT TO DELTA agora é compatível com os ambientes habilitados para o Catálogo do Unity (Visualização Pública)

Nova versão do Apache Spark

O Databricks Runtime 11.0 e Databricks Runtime 11.0 Photon incluem o Apache Spark 3.3.0. Para obter mais detalhes, confira Apache Spark.

Agora, os notebooks Python usam o kernel IPython

No Databricks Runtime 11.0 e superiores, os notebooks Python usam o kernel IPython para executar código Python. Confira Kernel IPython.

Suporte para ipywidgets

Agora você pode usar ipywidgets para que os notebooks Python do Databricks fiquem interativos. Confira ipywidgets.

O conector do Synapse agora grava dados Parquet no modo não herdado

O conector do Azure Synapse agora grava dados Parquet no modo não herdado. Ele preserva o formato de carimbo de data/hora INT96 ao usar o PolyBase e comandos COPY para cargas de trabalho em lote e streaming.

O esquema HTTPS agora é imposto quando o cliente ABFS usa o token SAS

Quando o cliente do ABFS (Azure Blob File System) usa um token SAS (Assinatura de Acesso Compartilhado), o esquema HTTPS agora é imposto.

SQL: agora `DESC` é um alias para `DESCRIBE`

Agora você poderá usar DESC como um alias para DESCRIBE quando descrever locais externos ou credenciais de armazenamento. Por exemplo:

-- Describe an external location.
DESC EXTERNAL LOCATION location_name;

-- Describe a storage credential.
DESC STORAGE CREDENTIAL credential_name;

SQL: a nova função `current_version` gera detalhes da versão

A nova função current_version gera a versão atual do Databricks Runtime, se disponível, a versão atual do SQL do Databricks, se disponível, e outros detalhes de versão relacionados. Use essa nova função para consultar informações relacionadas à versão. Confira Função current_version.

Remover uma restrição de tabela Delta ausente agora gera um erro

Se você tentar remover uma restrição de tabela Delta por nome e essa restrição não existir, você receberá um erro. Para obter o comportamento anterior, que não gerará um erro se a restrição não existir, agora você precisará usar a instrução IF EXISTS. Confira ALTER TABLE.

SQL: a nova cláusula `EXCEPT` na instrução `SELECT` exclui colunas da seleção

As instruções SELECT agora dão suporte à exclusão de colunas da seleção pelo uso da cláusula EXCEPT. Por exemplo, SELECT * EXCEPT (x) FROM table retorna todas as colunas de table, exceto x. Colunas aninhadas também são permitidas. Por exemplo, SELECT * EXCEPT (x.a) FROM table retorna todas as colunas de table, mas omite o campo a do struct x.

Suporte para remover colunas em tabelas Delta (versão prévia pública)

Você pode usar ALTER TABLE <table-name> DROP COLUMN [IF EXISTS] <column-name> ou ALTER TABLE <table-name> DROP COLUMNS [IF EXISTS] (<column-name>, *) para remover uma coluna ou uma lista de colunas, respectivamente, de uma tabela Delta como uma operação somente de metadados. As colunas são efetivamente "excluídas temporariamente", pois ainda estão nos arquivos Parquet subjacentes, mas não ficam mais visíveis para a tabela Delta.

Você pode usar REORG TABLE <table-name> APPLY (PURGE) para disparar uma regravação de arquivo nos arquivos que contêm dados excluídos temporariamente, como colunas removidas.

Você pode usar VACUUM para remover os arquivos excluídos do armazenamento físico, incluindo os arquivos antigos que contêm colunas removidas e foram regravados por REORG TABLE.

Aprimoramentos `COPY INTO`

Agora você pode criar tabelas Delta de espaço reservado vazias para que o esquema seja inferido posteriormente durante um comando COPY INTO:

CREATE TABLE IF NOT EXISTS my_table
[COMMENT <table-description>]
[TBLPROPERTIES (<table-properties>)];

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

A instrução SQL anterior é idempotente e pode ser agendada para ser executada para ingerir dados exatamente uma vez em uma tabela Delta.

Observação

A tabela Delta vazia não é utilizável fora de COPY INTO. Você não pode usar INSERT INTO e MERGE INTO para gravar dados em tabelas Delta sem esquema. Depois que os dados são inseridos na tabela com COPY INTO, a tabela se torna consultável.

Se os dados que você estiver ingerindo não puderem ser lidos devido a algum problema de corrupção, você poderá ignorar arquivos corrompidos definindo ignoreCorruptFiles como true no FORMAT_OPTIONS:

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('ignoreCorruptFiles' = 'true')

O comando COPY INTO retorna o número de arquivos que foram ignorados devido à corrupção na coluna num_skipped_corrupt_files. Essa métrica também aparece na coluna operationMetrics em numSkippedCorruptFiles depois de você executar DESCRIBE HISTORY na tabela Delta.

Arquivos corrompidos não são rastreados por COPY INTO. Portanto, eles poderão ser recarregados em uma execução subsequente se a corrupção for corrigida. Você pode ver quais arquivos estão corrompidos executando COPY INTO no modo VALIDATE.

O `CONVERT TO DELTA` agora é compatível com os ambientes habilitados para o Catálogo do Unity (Visualização Pública)

Em ambientes habilitados para o Catálogo do Unity, com o CONVERT TO DELTA agora você pode:

Converter arquivos Parquet localizados em locais externos em Delta Lake.
Converter tabelas externas Parquet em tabelas Delta.

Alterações de comportamento

SQL: as funções lpad e rpad agora dão suporte a sequências de bytes
O formato de cadeia de caracteres em format_string e printf não permite mais %0$
Valores nulos em arquivos CSV agora são gravados por padrão como cadeias de caracteres vazias sem aspas
A propriedade de tabela external agora é reservada
O Log4j foi atualizado do Log4j 1 para o Log4j 2
As bibliotecas instaladas por meio do Maven já são resolvidas no plano de computação por padrão

SQL: as funções `lpad` e `rpad` agora dão suporte a sequências de bytes

As funções lpad e rpad foram atualizadas para adicionar suporte para sequências de bytes, além de cadeias de caracteres.

O formato de cadeia de caracteres em `format_string` e `printf` não permite mais `%0$`

Especificar o formato %0$ nas funções format_string as printf agora gerará um erro por padrão. Essa alteração é para preservar o comportamento esperado com versões anteriores do Databricks Runtime e bancos de dados comuns de terceiros. O primeiro argumento sempre deve referenciar %1$ quando você usa um índice de argumento para indicar a posição do argumento na lista de argumentos.

Valores nulos em arquivos CSV agora são gravados por padrão como cadeias de caracteres vazias sem aspas

Valores nulos em arquivos CSV eram anteriormente gravados como cadeias de caracteres vazias com aspas. Com esta versão, os valores nulos em arquivos CSV agora são gravados por padrão como cadeias de caracteres vazias sem aspas. Para alterar de volta para o comportamento anterior, defina a opção nullValue como "" para operações de gravação.

A propriedade de tabela `external` agora é reservada

A propriedade external agora é uma propriedade de tabela reservada por padrão. As exceções agora são geradas quando você usa a propriedade external com as cláusulas CREATE TABLE ... TBLPROPERTIES e ALTER TABLE ... SET TBLPROPERTIES.

O Log4j foi atualizado de Log4j 1 para Log4j 2

O Log4j 1 está sendo atualizado para Log4j 2. Dependências herdadas do Log4j 1 estão sendo removidas.

Se você depende das classes do Log4j 1 que foram incluídas anteriormente no Databricks Runtime, essas classes não existem mais. Você deve atualizar suas dependências para o Log4j 2.

Se você tem plug-ins personalizados ou arquivos de configuração que dependem do Log4j 2, eles poderão não funcionar mais com a versão do Log4j 2 nesta versão. Para obter assistência, entre em contato com sua equipe de conta do Azure Databricks.

As bibliotecas instaladas por meio do Maven já são resolvidas no plano de computação por padrão

As bibliotecas do Maven já são resolvidas no plano de computação por padrão quando você instala bibliotecas em um cluster. O cluster deve ter acesso ao Maven Central. Como alternativa, você pode reverter para o comportamento anterior definindo a propriedade de configuração do Spark:

spark.databricks.libraries.enableMavenResolution false

Correções de bug

A compatibilidade binária para LeafNode, UnaryNode e BinaryNode entre o Apache Spark e o Databricks Runtime foi corrigida, e as classes agora são compatíveis com o Apache Spark 3.3.0 e superior. Se você encontrar o seguinte ou uma mensagem semelhante ao usar um pacote de terceiros com o Databricks Runtime, recompile o pacote com o Apache Spark 3.3.0 ou superior: Found interface org.apache.spark.sql.catalyst.plans.logical.UnaryNode, but class was expected.

Atualizações da biblioteca

Bibliotecas do Python atualizadas:
- platformdirs de 2.5.1 a 2.5.2
- protobuf de 3.20.0 a 3.20.1
Bibliotecas do R atualizadas:
- blob de 1.2.2 a 1.2.3
- broom de 0.7.12 a 0.8.0
- caret de 6.0-91 a 6.0-92
- cli de 3.2.0 a 3.3.0
- dplyr de 1.0.8 a 1.0.9
- future de 1.24.0 a 1.25.0
- future.apply de 1.8.1 a 1.9.0
- gert de 1.5.0 para 1.6.0
- ggplot2 de 3.3.5 a 3.3.6
- glmnet de 4.1-3 a 4.1-4
- haven de 2.4.3 a 2.5.0
- httr de 1.4.2 a 1.4.3
- knitr de 1.38 a 1.39
- magrittr de 2.0.2 a 2.0.3
- parallelly de 1.30.0 a 1.31.1
- ps de 1.6.0 a 1.7.0
- RColorBrewer de 1.1-2 a 1.1-3
- RcppEigen de 0.3.3.9.1 a 0.3.3.9.2
- readxl de 1.3.1 a 1.4.0
- rmarkdown de 2.13 a 2.14
- rprojroot de 2.0.2 a 2.0.3
- RSQLite de 2.2.11 a 2.2.13
- scales de 1.1.1 a 1.2.0
- testthat de 3.1.2 a 3.1.4
- tibble de 3.1.6 a 3.1.7
- tinytex de 0.37 a 0.38
- tzdb de 0.2.0 a 0.3.0
- uuid de 1.0-4 a 1.1-0
- vctrs de 0.3.8 a 0.4.1
Bibliotecas do Java atualizadas:
- com.fasterxml.jackson.core.jackson-annotations de 2.13.0 para 2.13.3
- com.fasterxml.jackson.core.jackson-core de 2.13.0 para 2.13.3
- com.fasterxml.jackson.core.jackson-databind de 2.13.0 para 2.13.3
- com.fasterxml.jackson.dataformat.jackson-dataformat-cbor de 2.13.0 para 2.13.3
- com.fasterxml.jackson.datatype.jackson-datatype-joda de 2.13.0 para 2.13.3
- com.fasterxml.jackson.module.jackson-module-paranamer de 2.13.0 para 2.13.3
- com.fasterxml.jackson.module.jackson-module-scala_2.12 de 2.13.0 para 2.13.3
- com.google.crypto.tink.tink de 1.6.0 a 1.6.1
- com.ning.compress-lzf de 1.0.3 a 1.1
- dev.ludovic.netlib.arpack de 2.2.0 para 2.2.1
- dev.ludovic.netlib.blas de 2.2.0 para 2.2.1
- dev.ludovic.netlib.lapack de 2.2.0 para 2.2.1
- io.netty.netty-all de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-buffer de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-codec de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-common de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-handler de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-resolver de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-tcnative-classes de 2.0.46.Final a 2.0.48.Final
- io.netty.netty-transport de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-classes-epoll de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-classes-kqueue de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-epoll-linux-aarch_64 de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-epoll-linux-x86_64 de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-kqueue-osx-aarch_64 de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-kqueue-osx-x86_64 de 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-unix-common de 4.1.73.Final a 4.1.74.Final
- joda-time.joda-time de 2.10.12 para 2.10.13
- org.apache.commons.commons-math3 de 3.4.1 para 3.6.1
- org.apache.httpcomponents.httpcore de 4.4.12 para 4.4.14
- org.apache.orc.orc-core de 1.7.3 a 1.7.4
- org.apache.orc.orc-mapreduce de 1.7.3 a 1.7.4
- org.apache.orc.orc-shims de 1.7.3 a 1.7.4
- org.eclipse.jetty.jetty-client de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-continuation de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-http de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-io de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-jndi de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-plus de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-proxy de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-security de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-server de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-servlet de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-servlets de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-util de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-util-ajax de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-webapp de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.jetty-xml de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-api de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-client de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-common de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-server de 9.4.43.v20210629 para 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-servlet de 9.4.43.v20210629 para 9.4.46.v20220331
- org.mariadb.jdbc.mariadb-java-client de 2.2.5 para 2.7.4
- org.postgresql.postgresql de 42.2.19 para 42.3.3
- org.roaringbitmap.RoaringBitmap de 0.9.23 a 0.9.25
- org.roaringbitmap.shims de 0.9.23 a 0.9.25
- org.rocksdb.rocksdbjni de 6.20.3 a 6.24.2
- org.slf4j.jcl-over-slf4j de 1.7.32 para 1.7.36
- org.slf4j.jul-to-slf4j de 1.7.32 para 1.7.36
- org.slf4j.slf4j-api de 1.7.30 a 1.7.36

Apache Spark

Databricks Runtime 11.0 includes Apache Spark 3.3.0.

Spark SQL e Core

Modo ANSI

Novas regras de sintaxe de conversão explícita em modo ANSI (SPARK-33354)
Elt() deverá retornar nulo se o índice for nulo no modo ANSI (SPARK-38304)
Opcionalmente, retornará o resultado nulo se o elemento não existir na matriz/mapa (SPARK-37750)
Permissão para conversão entre tipo numérico e tipo de carimbo de data/hora (SPARK-37714)
Palavras-chave reservadas ANSI desabilitadas por padrão (SPARK-37724)
Usar regras de atribuição do repositório para resolver invocação de função (SPARK-37438)
Adição de uma configuração para permitir a conversão entre datetime e numérico (SPARK-37179)
Adição de uma configuração para impor opcionalmente palavras-chave reservadas ANSI (SPARK-37133)
Não permitir operações binárias entre intervalo e literal de cadeia de caracteres (SPARK-36508)

Aprimoramentos de recursos

Suporte a tipos INTERVAL SQL ANSI (SPARK-27790)
Aprimoramentos de mensagem de erro (SPARK-38781)
Suporte a metadados de arquivo oculto para Spark SQL (SPARK-37273)
Suporte a literal de cadeia de caracteres bruta (SPARK-36371)
Classe auxiliar para lote Dataset.observe() (SPARK-34806)
O suporte especifica o número de partição inicial para rebalanceamento (SPARK-38410)
Suporte ao modo em cascata para API dropNamespace (SPARK-37929)
Permissão para atribuição de armazenamento e conversão implícita entre tipos datetime (SPARK-37707)
Coleta, o primeiro e o último devem ser funções de agregação determinísticas (SPARK-32940)
Adição de ExpressionBuilder para funções com sobrecargas complexas (SPARK-37164)
Adição de suporte de matriz a união por nome (SPARK-36546)
Adição de df.withMetadata: um açúcar sintático para atualizar os metadados de um dataframe (SPARK-36642)
Suporte a literal de cadeia de caracteres bruta (SPARK-36371)
Uso de CAST na análise de datas/carimbos de data/hora com um padrão predefinido (SPARK-36418)
Suporte a classe de valor no esquema aninhado para um Conjunto de Dados (SPARK-20384)
Adição do suporte à sintaxe AS OF (SPARK-37219)
Adicionado REPEATABLE em TABLESAMPLE para especificar semente (SPARK-37165)
Adição da sintaxe ANSI set catalog xxx para alterar o catálogo atual (SPARK-36841)
Suporte a ILIKE (ALL | ANY | SOME) – LIKE sem diferenciação de maiúsculas e minúsculas (SPARK-36674, SPARK-36736, SPARK-36778)
Suporte à exibição de estatísticas de runtime no modo de explicação formatada no estágio de consulta (SPARK-38322)
Adiciona métricas de tamanho de despejo para a junção de mesclagem de classificação (SPARK-37726)
Atualização da sintaxe SQL de SHOW FUNCTIONS (SPARK-37777)
Suporte à sintaxe DROP COLUMN [IF EXISTS] (SPARK-38939)
Novas funções internas e as respectivas extensões (SPARK-38783)
- Datetime
  - Adição da função TIMESTAMPADD() (SPARK-38195)
  - Adição da função TIMESTAMPDIFF() (SPARK-38284)
  - Adição do alias DATEDIFF() para TIMESTAMPDIFF() (SPARK-38389)
  - Adição do alias DATEADD() para TIMESTAMPADD() (SPARK-38332)
  - Adição da função convert\_timezone() (SPARK-37552, SPARK-37568)
  - Exposição da expressão make_date em functions.scala (SPARK-36554)
- Funções AES (SPARK-12567)
  - Adição das funções internas aes_encrypt e aes_decrypt (SPARK-12567)
  - Suporte ao modo GCM por aes\_encrypt()/aes\_decrypt() (SPARK-37591)
  - Definição de GCM como o modo padrão em aes\_encrypt()/aes\_decrypt() (SPARK-37666)
  - Adição dos argumentos mode e padding a aes\_encrypt()/aes\_decrypt() (SPARK-37586)
- Função de agregação ANSI (SPARK-37671)
  - Suporte à função de agregação ANSI: regr_count (SPARK-37613)
  - Suporte à função de agregação ANSI: regr_avgx e regr_avgy (SPARK-37614)
  - Suporte à função de agregação ANSI: percentile_cont (SPARK-37676, SPARK-38219)
  - Suporte à função de agregação ANSI: percentile_disc (SPARK-37691)
  - Suporte à função de agregação ANSI: regr_count (SPARK-37613)
  - Suporte à função de agregação ANSI: array_agg (SPARK-27974)
  - Suporte à função de agregação ANSI: regr_r2 (SPARK-37641)
  - Nova função SQL: try_avg (SPARK-38589)
- Coleções
  - Introdução da função SQL ARRAY_SIZE (SPARK-38345)
  - Nova função SQL: map_contains_key (SPARK-37584)
  - Nova função SQL: try_element_at (SPARK-37533)
  - Nova função SQL: try_sum (SPARK-38548)
- Formatar
  - Adição de uma nova função SQL to_binary (SPARK-37507, SPARK-38796)
  - Nova função SQL try_to_binary (SPARK-38590, SPARK-38796)
  - Funções de formatação de tipo de dados: to\_number (SPARK-28137)
- Cadeia de caracteres/binário
  - Adição da função de cadeia de caracteres CONTAINS() (SPARK-37508)
  - Adição das funções de cadeia de caracteres startswith() e endswith() (SPARK-37520)
  - Adição das funções lpad e rpad para cadeias de caracteres binárias (SPARK-37047)
  - Suporte à função split_part (SPARK-38063)
- Adição do parâmetro scale às funções floor e ceil (SPARK-37475)
- Novas funções SQL: try_subtract e try_multiply (SPARK-38164)
- Implementa a função de agregação histogram_numeric que dá suporte à agregação parcial (SPARK-16280)
- Adição de max_by/min_by a sql.functions (SPARK-36963)
- Adição de novas funções de SQL: SEC e CSC (SPARK-36683)
- array_intersect manipula Double.NaN e Float.NaN duplicados (SPARK-36754)
- Adição de cot como funções Scala e Python (SPARK-36660)

Aprimoramentos de desempenho

Geração de código em estágio inteiro
- Adição de geração de código para agregação de classificação sem chaves de grupo (SPARK-37564)
- Adição de geração de código para a junção de mesclagem de classificação externa completa (SPARK-35352)
- Adição de geração de código para a associação hash aleatorizada exterior completa (SPARK-32567)
- Adição de geração de código para a junção de mesclagem de classificação de existência (SPARK-37316)
Push down (filtros)
- Push down de filtros por RebalancePartitions (SPARK-37828)
- Push down de filtro de coluna booliana (SPARK-36644)
- Limitará o push down em 1 para o lado direito da semi/anti junção à esquerda se a condição de junção estiver vazia (SPARK-37917)
- Movimentação de mais funções de agregação padrão para pushdown (SPARK-37527)
- Suporte para propagação de relação vazia por meio de agregação/união (SPARK-35442)
- Filtragem de runtime em nível de linha (SPARK-32268)
- Suporte à junção semi esquerda em filtros de runtime de nível de linha (SPARK-38565)
- Suporte a pushdown de predicado e a remoção de coluna para CTEs desduplicados (SPARK-37670)
Vetorização
- Implementação de um ConstantColumnVector e aprimoramento do desempenho dos metadados de arquivo ocultos (SPARK-37896)
- Habilitação da leitura vetorizada para VectorizedPlainValuesReader.readBooleans (SPARK-35867)
Combinação/remoção/substituição de nós
- Combinação de uniões quando há um projeto entre elas (SPARK-37915)
- Combinação com uma conversão quando é possível fazer um upcast de duas conversões com segurança (SPARK-37922)
- Remoção da classificação se for o filho de RepartitionByExpression (SPARK-36703)
- Remoção da junção externa se ela tiver apenas DISTINCT no lado transmitido com alias (SPARK-37292)
- Substituição do hash por um agregado de ordenação se o subordinado já estiver ordenado (SPARK-37455)
- Recolhimento de projetos somente quando expressões com uso elevado de recursos não são duplicadas (SPARK-36718)
- Remoção de aliases redundantes após RewritePredicateSubquery (SPARK-36280)
- Mesclagem de subconsultas escalares não correlacionadas (SPARK-34079)
Particionamento
- Não adição da remoção de partição dinâmica se houver remoção de partição estática (SPARK-38148)
- Aprimoramento de RebalancePartitions nas regras do otimizador (SPARK-37904)
- Adição de um pequeno fator de partição para rebalanceamento de partições (SPARK-37357)
Join
- Ajuste da lógica para rebaixar a junção hash de Difusão em DynamicJoinSelection (SPARK-37753)
- Ignorar chaves de associação duplicadas ao criar a relação para a junção hash SEMI/ANTI aleatorizada (SPARK-36794)
- Suporte para otimização de junção distorcida mesmo se isso introduzir aleatoriedade adicional (SPARK-33832)
AQE
- Suporte para eliminação de limites no Otimizador do AQE (SPARK-36424)
- Otimização de um plano de linha em otimizador normal e AQE (SPARK-38162)
Aggregate.groupOnly dá suporte a expressões dobráveis (SPARK-38489)
ByteArrayMethods arrayEquals deve ignorar rapidamente a verificação de alinhamento com a plataforma não alinhada (SPARK-37796)
Adição da remoção de padrão de árvore à regra CTESubstitution (SPARK-37379)
Adição de mais simplificações de operador NOT (SPARK-36665)
Suporte a BooleanType em UnwrapCastInBinaryComparison (SPARK-36607)
União/remoção de todas as expressões após a primeira expressão não anulável (SPARK-36359)
Adição de um visitante de plano lógico para propagar os atributos distintos (SPARK-36194)

Aprimoramentos de conector interno

Geral
- Serialização branda de datetime da fonte de dados (SPARK-38437)
- O local da tabela passou a ser tratado como absoluto quando a primeira letra do caminho é barra em create/alter table (SPARK-38236)
- Remoção de zeros à esquerda da partição de tipo de número estático vazio (SPARK-35561)
- Suporte a ignoreCorruptFiles e ignoreMissingFiles em opções de Fonte de Dados (SPARK-38767)
- Adição do comando SHOW CATALOGS (SPARK-35973)
Parquet
- Habilitação de nomes de colunas de esquema correspondentes por IDs de campo (SPARK-38094)
- Remoção do nome do campo de verificação ao ler/escrever dados no Parquet (SPARK-27442)
- Suporte a valores boolianos de leitura vetorizados que usam a codificação RLE com Parquet DataPage V2 (SPARK-37864)
- Suporte à codificação de página de dados Parquet v2 (DELTA_BINARY_PACKED) para o caminho vetorizado (SPARK-36879)
- Nova fundamentação dos tempos de data/hora no fuso horário da sessão salvos nos metadados Parquet/Avro (SPARK-37705)
- Push down de grupo por coluna de partição para agregação (SPARK-36646)
- Push down de agregação (mín/máx/contagem) para Parquet (SPARK-36645)
- Parquet: habilitação de colunas de esquema correspondentes por ID de campo (SPARK-38094)
- Redução do tamanho da página padrão por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados (SPARK-37593)
- Implementação de codificações vetorizadas DELTA_BYTE_ARRAY e DELTA_LENGTH_BYTE_ARRAY para suporte ao Parquet V2 (SPARK-37974)
- Suporte a tipos complexos para leitor vetorizado Parquet (SPARK-34863)
ORC
- Remoção do nome do campo de verificação ao ler/escrever dados existentes em Orc (SPARK-37965)
- Agregação do push down para ORC (SPARK-34960)
- Suporte à leitura e gravação de intervalos ANSI de/para fontes de dados ORC (SPARK-36931)
- Suporte a nomes de coluna somente número em fontes de dados ORC (SPARK-36663)
JSON
- Respeito a allowNonNumericNumbers ao analisar valores de NaN e Infinito entre aspas no leitor JSON (SPARK-38060)
- Uso de CAST para datetime em CSV/JSON por padrão (SPARK-36536)
- Alinhamento de mensagem de erro para tipos de chave sem suporte no MapType no leitor JSON (SPARK-35320)
CSV
- Correção referente à coluna de registro corrompido do CSV (SPARK-38534)
- Valores nulos devem ser salvos como nada em vez de cadeias de caracteres vazias entre aspas "" por padrão (SPARK-37575)
JDBC
- Adição da instrução IMMEDIATE à implementação de truncar dialeto DB2 (SPARK-30062)
Hive
- Suporte à gravação de tabela em bucket do Hive (formatos de arquivo Hive com hash do Hive) (SPARK-32712)
- Uso de expressões para filtrar partições do Hive no lado do cliente (SPARK-35437)
- Suporte à remoção de partição dinâmica para HiveTableScanExec (SPARK-36876)
- InsertIntoHiveDir deverá usar a fonte de dados se ela for conversível (SPARK-38215)
- Suporte à gravação de tabela em bucket do Hive (formato Parquet/ORC com hash do Hive) (SPARK-32709)

Desativação de nó

FallbackStorage não deve tentar resolver o nome de host arbitrário "remoto" (SPARK-38062)
ExecutorMonitor.onExecutorRemoved deve lidar com ExecutorDecommission conforme concluído (SPARK-38023)

Outras alterações importantes

Adição de bloqueio refinado ao BlockInfoManager (SPARK-37356)
Suporte ao mapeamento de tipos de recurso gpu/fpga do Spark para o tipo de recurso YARN personalizado (SPARK-37208)
Relato do tamanho de bloco de embaralhamento preciso caso ele esteja distorcido (SPARK-36967)
Suporte ao registro em log do Netty na camada de rede (SPARK-36719)

Streaming estruturado

Principais recursos

Introdução do Trigger.AvailableNow para executar consultas de transmissão como Trigger.Once em vários lotes (SPARK-36533)

Outras alterações importantes

Uso de StatefulOpClusteredDistribution para operadores com estado com relação à compatibilidade com versões anteriores (SPARK-38204)
Correção do tempo limite de flatMapGroupsWithState em lote com dados para chave (SPARK-38320)
Correção do problema de exatidão na junção externa de fluxo/fluxo com o provedor de repositório de estado RocksDB (SPARK-38684)
Suporte a Trigger.AvailableNow na fonte de dados do Kafka (SPARK-36649)
Otimizar o caminho de gravação no provedor de armazenamento de estado RocksDB (SPARK-37224)
Introduz uma nova fonte de dados para fornecer um conjunto consistente de linhas por microlote (SPARK-37062)
Uso de HashClusteredDistribution para operadores com estado com relação à compatibilidade com versões anteriores (SPARK-38204)

PySpark

API do Pandas no Spark

Aprimoramentos principais

Otimização de índice 'distributed-sequence' sendo o padrão (SPARK-36559, SPARK-36338)
- Suporte para especificar o tipo de índice e o nome na API do Pandas no Spark (SPARK-36709)
- Exibição do tipo de índice padrão em planos de SQL para a API do Pandas no Spark (SPARK-38654)

Principais recursos

Implementação de ps.merge_asof nativos do SparkSQL (SPARK-36813)
Suporte a TimedeltaIndex na API do Pandas no Spark (SPARK-37525)
Suporte à timedelta do Python (SPARK-37275, SPARK-37510)
Implementação de funções em CategoricalAccessor/CategoricalIndex (SPARK-36185)
Uso do formatador de cadeia de caracteres padrão do Python para API do SQL no Spark (SPARK-37436)
Suporte a operações básicas de Índice/Série timedelta (SPARK-37510)
Suporte a ps.MultiIndex.dtypes (SPARK-36930)
Implementação de Index.map (SPARK-36469)
Implementação de Series.xor e Series.rxor (SPARK-36653)
Implementação do operador invert unário de ps.Series/Index integral (SPARK-36003)
Implementação de DataFrame.cov (SPARK-36396)
Suporte a str e carimbo de data/hora para (Series|DataFrame).describe() (SPARK-37657)
Suporte ao parâmetro lambda column deDataFrame.rename (SPARK-38763)

Outras alterações importantes

Alterações de quebra

Remoção de referências ao suporte do Python 3.6 em docs e python/docs (SPARK-36977)
Remoção do hack de namedtuple substituindo o pickle interno para cloudpickle (SPARK-32079)
Elevação da versão mínima do Pandas para 1.0.5 (SPARK-37465)
Aprimoramentos principais
- Fornecimento de um criador de perfil para UDFs do Python/Pandas (SPARK-37443)
- Uso do formatador de cadeia de caracteres padrão do Python para API do SQL no PySpark (SPARK-37516)
- Exposição do estado e classe de erro do SQL em exceções do PySpark (SPARK-36953)
- Tentativa de capturar faulthanlder em caso de falha de um trabalho do Python (SPARK-36062)

Principais recursos

Implementação de DataFrame.mapInArrow no Python (SPARK-37228)
Uso do formatador de cadeia de caracteres padrão do Python para API do SQL no PySpark (SPARK-37516)
Adição da API df.withMetadata do PySpark (SPARK-36642)
Suporte à timedelta do Python (SPARK-37275)
Exposição de tableExists em pyspark.sql.catalog (SPARK-36176)
Exposição de databaseExists em pyspark.sql.catalog (SPARK-36207)
Exposição de functionExists em pyspark.sql.catalog (SPARK-36258)
Adicionar Dataframe.observation ao PySpark (SPARK-36263)
Adição da API max_by/min_by ao PySpark (SPARK-36972)
Suporte para inferir um dict aninhado como um struct ao criar um DataFrame (SPARK-35929)
Adição de APIs bit/octet_length ao Scala, Python e R (SPARK-36751)
Suporte à API ILIKE no Python (SPARK-36882)
Adição do método isEmpty para a API DataFrame do Python (SPARK-37207)
Adição de várias colunas adicionando suporte (SPARK-35173)
Adição de SparkContext.addArchive no PySpark (SPARK-38278)
Transformação de repositórios de tipo do SQL em avaliáveis (SPARK-18621)
Dicas de tipo embutido para fpm.py em python/pyspark/mllib (SPARK-37396)
Implementação do parâmetro dropna de SeriesGroupBy.value_counts (SPARK-38837)

MLLIB

Principais recursos

Adição de param distanceMeasure a trainKMeansModel (SPARK-37118)
Exposição de LogisticRegression.setInitialModel, como feito por KMeans e outros (SPARK-36481)
Suporte à obtenção do desvio padrão de métricas para cada paramMap por CrossValidatorModel (SPARK-36425)

Aprimoramentos principais

Otimizar alguns treeAggregates em MLlib atrasando alocações (SPARK-35848)
Reescrever _shared_params_code_gen.py para dicas de tipo embutido para ml/param/shared.py (SPARK-37419)

Outras alterações importantes

Atualização para breeze 1.2 (SPARK-35310)

SparkR

Migração de documentos do SparkR para pkgdown (SPARK-37474)
Exposição da expressão make_date expressão no R (SPARK-37108)
Adição de API max_by/min_by ao SparkR (SPARK-36976)
Suporte à API ILIKE no R (SPARK-36899)
Adição de funções s e csc como funções do R (SPARK-36824)
Adição de APIs bit/octet_length ao Scala, Python e R (SPARK-36751)
Adicionar cot como uma função do R (SPARK-36688)

UI

Resumo das métricas de especulação no nível de preparação (SPARK-36038)
Tempo de bloco de leitura de embaralhamento unificado para embaralhar o tempo de espera de busca de leitura no StagePage (SPARK-37469)
Adição de configurações modificadas para execução de SQL na interface do usuário (SPARK-34735)
O ThriftServer já reconhece spark.sql.redaction.string.regex (SPARK-36400)
Anexar e iniciar o manipulador após o início do aplicativo na interface do usuário (SPARK-36237)
Adicionar duração de confirmação ao nó de grafo da guia SQL (SPARK-34399)
Suporte ao back-end do RocksDB no servidor de histórico do Spark (SPARK-37680)
Exibição das opções para a API do Pandas no Spark na interface do usuário (SPARK-38656)
Renomeação de 'SQL' para 'SQL/DataFrame' na página da interface do usuário do SQL (SPARK-38657)

Build

Migração de log4j 1 para log4j 2 (SPARK-37814)
Atualização de log4j2 para 2.17.2 (SPARK-38544)
Atualização para Py4J 0.10.9.5 (SPARK-38563)
Atualização do ORC para 1.7.4 (SPARK-38866)
Atualização de datatables para 1.10.25 (SPARK-38924)

Atualizações de manutenção

Confira Databricks Runtime 11.0 (sem suporte).

Ambiente do sistema

Sistema operacional: Ubuntu 20.04.4 LTS
Java: Zulu 8.56.0.21-CA-linux64
Scala: 2.12.14
Python: 3.9.5
R: 4.1.3
Delta Lake: 1.2.1

Bibliotecas Python instaladas

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
Antergos Linux	2015.10 (atualização cumulativa de ISO)	argon2-cffi	20.1.0	async-generator	1,10
attrs	21.2.0	backcall	0.2.0	backports.entry-points-selectable	1.1.1
bleach	4.0.0	boto3	1.21.18	botocore	1.24.18
certifi	2021.10.8	cffi	1.14.6	chardet	4.0.0
charset-normalizer	2.0.4	cycler	0.10.0	Cython	0.29.24
dbus-python	1.2.16	debugpy	1.4.1	decorator	5.1.0
defusedxml	0.7.1	distlib	0.3.4	distro-info	0.23ubuntu1
entrypoints	0.3	facets-overview	1.0.0	filelock	3.6.0
idna	3.2	ipykernel	6.12.1	ipython	7.32.0
ipython-genutils	0.2.0	ipywidgets	7.7.0	jedi	0.18.0
Jinja2	2.11.3	jmespath	0.10.0	joblib	1.0.1
jsonschema	3.2.0	jupyter-client	6.1.12	jupyter-core	4.8.1
jupyterlab-pygments	0.1.2	jupyterlab-widgets	1.0.0	kiwisolver	1.3.1
MarkupSafe	2.0.1	matplotlib	3.4.3	matplotlib-inline	0.1.2
mistune	0.8.4	nbclient	0.5.3	nbconvert	6.1.0
nbformat	5.1.3	nest-asyncio	1.5.1	notebook	6.4.5
numpy	1.20.3	empacotando	21.0	pandas	1.3.4
pandocfilters	1.4.3	parso	0.8.2	patsy	0.5.2
pexpect	4.8.0	pickleshare	0.7.5	Pillow	8.4.0
pip	21.2.4	platformdirs	2.5.2	plotly	5.6.0
prometheus-client	0.11.0	prompt-toolkit	3.0.20	protobuf	3.20.1
psutil	5.8.0	psycopg2	2.9.3	ptyprocess	0.7.0
pyarrow	7.0.0	pycparser	2,20	Pygments	2.10.0
PyGObject	3.36.0	pyodbc	4.0.31	pyparsing	3.0.4
pyrsistent	0.18.0	python-apt	2.0.0+ubuntu0.20.4.7	python-dateutil	2.8.2
pytz	2021.3	pyzmq	22.2.1	solicitações	2.26.0
requests-unixsocket	0.2.0	s3transfer	0.5.2	scikit-learn	0.24.2
scipy	1.7.1	seaborn	0.11.2	Send2Trash	1.8.0
setuptools	58.0.4	six	1.16.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	terminado	0.9.4
testpath	0.5.0	threadpoolctl	2.2.0	tornado	6.1
traitlets	5.1.0	unattended-upgrades	0,1	urllib3	1.26.7
virtualenv	20.8.0	wcwidth	0.2.5	webencodings	0.5.1
wheel	0.37.0	widgetsnbextension	3.6.0

Bibliotecas R instaladas

As bibliotecas do R foram instaladas por meio do instantâneo do Microsoft CRAN em 06/05/2022.

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
askpass	1,1	assertthat	0.2.1	backports	1.4.1
base	4.1.3	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	blob	1.2.3	boot	1.3-28
brew	1.0-7	brio	1.1.3	broom	0.8.0
bslib	0.3.1	cachem	1.0.6	callr	3.7.0
sinal de interpolação	6.0-92	cellranger	1.1.0	chron	2.3-56
classe	7.3-20	cli	3.3.0	clipr	0.8.0
cluster	2.1.3	codetools	0.2-18	colorspace	2.0-3
commonmark	1.8.0	compiler	4.1.3	config	0.3.1
cpp11	0.4.2	crayon	1.5.1	credenciais	1.3.2
curl	4.3.2	data.table	1.14.2	conjuntos de dados	4.1.3
DBI	1.1.2	dbplyr	2.1.1	desc	1.4.1
devtools	2.4.3	diffobj	0.3.5	digest	0.6.29
dplyr	1.0.9	dtplyr	1.2.1	e1071	1.7-9
ellipsis	0.3.2	evaluate	0.15	fansi	1.0.3
farver	2.1.0	fastmap	1.1.0	fontawesome	0.2.2
forcats	0.5.1	foreach	1.5.2	foreign	0.8-82
forge	0.2.0	fs	1.5.2	future	1.25.0
future.apply	1.9.0	gargle	1.2.0	Genéricos	0.1.2
gert	1.6.0	ggplot2	3.3.6	gh	1.3.0
gitcreds	0.1.1	glmnet	4.1-4	globals	0.14.0
glue	1.6.2	googledrive	2.0.0	googlesheets4	1.0.0
gower	1.0.0	elemento gráfico	4.1.3	grDevices	4.1.3
grade	4.1.3	gridExtra	2.3	gsubfn	0.7
gtable	0.3.0	hardhat	0.2.0	haven	2.5.0
highr	0,9	hms	1.1.1	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.5	httr	1.4.3
ids	1.0.1	ini	0.3.1	ipred	0.9-12
isoband	0.2.5	iterators	1.0.14	jquerylib	0.1.4
jsonlite	1.8.0	KernSmooth	2.23-20	knitr	1.39
labeling	0.4.2	later	1.3.0	lattice	0.20-45
lava	1.6.10	ciclo de vida	1.0.1	listenv	0.8.0
lubridate	1.8.0	magrittr	2.0.3	markdown	1,1
MASS	7.3-56	Matriz	1.4-1	memoise	2.0.1
methods	4.1.3	mgcv	1.8-40	mime	0,12
ModelMetrics	1.2.2.2	modelr	0.1.8	munsell	0.5.0
nlme	3.1-157	nnet	7.3-17	numDeriv	2016.8-1.1
openssl	2.0.0	parallel	4.1.3	parallelly	1.31.1
pillar	1.7.0	pkgbuild	1.3.1	pkgconfig	2.0.3
pkgload	1.2.4	plogr	0.2.0	plyr	1.8.7
praise	1.0.0	prettyunits	1.1.1	pROC	1.18.0
processx	3.5.3	prodlim	2019.11.13	progress	1.2.2
progressr	0.10.0	promises	1.2.0.1	proto	1.0.0
proxy	0.4-26	ps	1.7.0	purrr	0.3.4
r2d3	0.2.6	R6	2.5.1	randomForest	4.7-1
rappdirs	0.3.3	rcmdcheck	1.4.0	RColorBrewer	1.1-3
Rcpp	1.0.8.3	RcppEigen	0.3.3.9.2	readr	2.1.2
readxl	1.4.0	recipes	0.2.0	rematch	1.0.1
rematch2	2.1.2	remotes	2.4.2	reprex	2.0.1
reshape2	1.4.4	rlang	1.0.2	rmarkdown	2.14
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1.16
rprojroot	2.0.3	Rserve	1.8-10	RSQLite	2.2.13
rstudioapi	0.13	rversions	2.1.1	rvest	1.0.2
sass	0.4.1	scales	1.2.0	selectr	0.4-2
sessioninfo	1.2.2	shape	1.4.6	shiny	1.7.1
sourcetools	0.1.7	sparklyr	1.7.5	SparkR	3.3.0
spatial	7.3-11	splines	4.1.3	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.3	stats4	4.1.3
stringi	1.7.6	stringr	1.4.0	survival	3.2-13
sys	3.4	tcltk	4.1.3	testthat	3.1.4
tibble	3.1.7	tidyr	1.2.0	tidyselect	1.1.2
tidyverse	1.3.1	timeDate	3043.102	tinytex	0,38
tools	4.1.3	tzdb	0.3.0	usethis	2.1.5
utf8	1.2.2	utils	4.1.3	uuid	1.1-0
vctrs	0.4.1	viridisLite	0.4.0	vroom	1.5.7
waldo	0.4.0	whisker	0,4	withr	2.5.0
xfun	0,30	xml2	1.3.3	xopen	1.0.0
xtable	1.8-4	yaml	2.3.5	zip	2.2.0

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

ID do Grupo	Artifact ID	Versão
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.12.189
com.amazonaws	aws-java-sdk-cloudformation	1.12.189
com.amazonaws	aws-java-sdk-cloudfront	1.12.189
com.amazonaws	aws-java-sdk-cloudhsm	1.12.189
com.amazonaws	aws-java-sdk-cloudsearch	1.12.189
com.amazonaws	aws-java-sdk-cloudtrail	1.12.189
com.amazonaws	aws-java-sdk-cloudwatch	1.12.189
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.12.189
com.amazonaws	aws-java-sdk-codedeploy	1.12.189
com.amazonaws	aws-java-sdk-cognitoidentity	1.12.189
com.amazonaws	aws-java-sdk-cognitosync	1.12.189
com.amazonaws	aws-java-sdk-config	1.12.189
com.amazonaws	aws-java-sdk-core	1.12.189
com.amazonaws	aws-java-sdk-datapipeline	1.12.189
com.amazonaws	aws-java-sdk-directconnect	1.12.189
com.amazonaws	aws-java-sdk-directory	1.12.189
com.amazonaws	aws-java-sdk-dynamodb	1.12.189
com.amazonaws	aws-java-sdk-ec2	1.12.189
com.amazonaws	aws-java-sdk-ecs	1.12.189
com.amazonaws	aws-java-sdk-efs	1.12.189
com.amazonaws	aws-java-sdk-elasticache	1.12.189
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.12.189
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.12.189
com.amazonaws	aws-java-sdk-elastictranscoder	1.12.189
com.amazonaws	aws-java-sdk-emr	1.12.189
com.amazonaws	aws-java-sdk-glacier	1.12.189
com.amazonaws	aws-java-sdk-glue	1.12.189
com.amazonaws	aws-java-sdk-iam	1.12.189
com.amazonaws	aws-java-sdk-importexport	1.12.189
com.amazonaws	aws-java-sdk-kinesis	1.12.189
com.amazonaws	aws-java-sdk-kms	1.12.189
com.amazonaws	aws-java-sdk-lambda	1.12.189
com.amazonaws	aws-java-sdk-logs	1.12.189
com.amazonaws	aws-java-sdk-machinelearning	1.12.189
com.amazonaws	aws-java-sdk-opsworks	1.12.189
com.amazonaws	aws-java-sdk-rds	1.12.189
com.amazonaws	aws-java-sdk-redshift	1.12.189
com.amazonaws	aws-java-sdk-route53	1.12.189
com.amazonaws	aws-java-sdk-s3	1.12.189
com.amazonaws	aws-java-sdk-ses	1.12.189
com.amazonaws	aws-java-sdk-simpledb	1.12.189
com.amazonaws	aws-java-sdk-simpleworkflow	1.12.189
com.amazonaws	aws-java-sdk-sns	1.12.189
com.amazonaws	aws-java-sdk-sqs	1.12.189
com.amazonaws	aws-java-sdk-ssm	1.12.189
com.amazonaws	aws-java-sdk-storagegateway	1.12.189
com.amazonaws	aws-java-sdk-sts	1.12.189
com.amazonaws	aws-java-sdk-support	1.12.189
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.12.189
com.amazonaws	jmespath-java	1.12.189
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	fluxo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.13.3
com.fasterxml.jackson.core	jackson-core	2.13.3
com.fasterxml.jackson.core	jackson-databind	2.13.3
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.13.3
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.13.3
com.fasterxml.jackson.module	jackson-module-paranamer	2.13.3
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.13.3
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1,1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1,1
com.github.fommil.netlib	native_ref-java-natives	1,1
com.github.fommil.netlib	native_system-java	1,1
com.github.fommil.netlib	native_system-java-natives	1,1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1,1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1,1
com.github.luben	zstd-jni	1.5.2-1
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	tink	1.6.1
com.google.flatbuffers	flatbuffers-java	1.12.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	2.0.204
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1,1
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.9.1
com.zaxxer	HikariCP	4.0.3
commons-cli	commons-cli	1.5.0
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.11.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-pool	commons-pool	1.5.4
dev.ludovic.netlib	arpack	2.2.1
dev.ludovic.netlib	blas	2.2.1
dev.ludovic.netlib	lapack	2.2.1
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0,21
io.delta	delta-sharing-spark_2.12	0.4.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.74.Final
io.netty	netty-buffer	4.1.74.Final
io.netty	netty-codec	4.1.74.Final
io.netty	netty-common	4.1.74.Final
io.netty	netty-handler	4.1.74.Final
io.netty	netty-resolver	4.1.74.Final
io.netty	netty-tcnative-classes	2.0.48.Final
io.netty	netty-transport	4.1.74.Final
io.netty	netty-transport-classes-epoll	4.1.74.Final
io.netty	netty-transport-classes-kqueue	4.1.74.Final
io.netty	netty-transport-native-epoll-linux-aarch_64	4.1.74.Final
io.netty	netty-transport-native-epoll-linux-x86_64	4.1.74.Final
io.netty	netty-transport-native-kqueue-osx-aarch_64	4.1.74.Final
io.netty	netty-transport-native-kqueue-osx-x86_64	4.1.74.Final
io.netty	netty-transport-native-unix-common	4.1.74.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	coletor	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1,1
javax.transaction	transaction-api	1,1
javax.xml.bind	jaxb-api	2.2.11
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.13
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	jna	5.8.0
net.razorvine	pickle	1,2
net.sf.jpam	jpam	1,1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.14
net.snowflake	spark-snowflake_2.12	2.10.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	7.0.0
org.apache.arrow	arrow-memory-core	7.0.0
org.apache.arrow	arrow-memory-netty	7.0.0
org.apache.arrow	arrow-vector	7.0.0
org.apache.avro	avro	1.11.0
org.apache.avro	avro-ipc	1.11.0
org.apache.avro	avro-mapred	1.11.0
org.apache.commons	commons-collections4	4.4
org.apache.commons	commons-compress	1.21
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.6.1
org.apache.commons	commons-text	1.9
org.apache.curator	curator-client	2.13.0
org.apache.curator	curator-framework	2.13.0
org.apache.curator	curator-recipes	2.13.0
org.apache.derby	derby	10.14.2.0
org.apache.hadoop	hadoop-client-api	3.3.2-databricks
org.apache.hadoop	hadoop-client-runtime	3.3.2
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.14
org.apache.ivy	ivy	2.5.0
org.apache.logging.log4j	log4j-1.2-api	2.17.2
org.apache.logging.log4j	log4j-api	2.17.2
org.apache.logging.log4j	log4j-core	2.17.2
org.apache.logging.log4j	log4j-slf4j-impl	2.17.2
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.7.4
org.apache.orc	orc-mapreduce	1.7.4
org.apache.orc	orc-shims	1.7.4
org.apache.parquet	parquet-column	1.12.0-databricks-0004
org.apache.parquet	parquet-common	1.12.0-databricks-0004
org.apache.parquet	parquet-encoding	1.12.0-databricks-0004
org.apache.parquet	parquet-format-structures	1.12.0-databricks-0004
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0004
org.apache.parquet	parquet-jackson	1.12.0-databricks-0004
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.46.v20220331
org.eclipse.jetty	jetty-continuation	9.4.46.v20220331
org.eclipse.jetty	jetty-http	9.4.46.v20220331
org.eclipse.jetty	jetty-io	9.4.46.v20220331
org.eclipse.jetty	jetty-jndi	9.4.46.v20220331
org.eclipse.jetty	jetty-plus	9.4.46.v20220331
org.eclipse.jetty	jetty-proxy	9.4.46.v20220331
org.eclipse.jetty	jetty-security	9.4.46.v20220331
org.eclipse.jetty	jetty-server	9.4.46.v20220331
org.eclipse.jetty	jetty-servlet	9.4.46.v20220331
org.eclipse.jetty	jetty-servlets	9.4.46.v20220331
org.eclipse.jetty	jetty-util	9.4.46.v20220331
org.eclipse.jetty	jetty-util-ajax	9.4.46.v20220331
org.eclipse.jetty	jetty-webapp	9.4.46.v20220331
org.eclipse.jetty	jetty-xml	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-api	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-client	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-common	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-server	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-servlet	9.4.46.v20220331
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2,34
org.glassfish.jersey.containers	jersey-container-servlet-core	2,34
org.glassfish.jersey.core	jersey-client	2,34
org.glassfish.jersey.core	jersey-common	2,34
org.glassfish.jersey.core	jersey-server	2,34
org.glassfish.jersey.inject	jersey-hk2	2,34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.8.0
org.mariadb.jdbc	mariadb-java-client	2.7.4
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.3.3
org.roaringbitmap	RoaringBitmap	0.9.25
org.roaringbitmap	shims	0.9.25
org.rocksdb	rocksdbjni	6.24.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,2
org.scalanlp	breeze_2.12	1,2
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.36
org.slf4j	jul-to-slf4j	1.7.36
org.slf4j	slf4j-api	1.7.36
org.spark-project.spark	unused	1.0.0
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.8
org.typelevel	algebra_2.12	2.0.1
org.typelevel	cats-kernel_2.12	2.1.1
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0
org.typelevel	spire-platform_2.12	0.17.0
org.typelevel	spire-util_2.12	0.17.0
org.typelevel	spire_2.12	0.17.0
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1

Share via

Databricks Runtime 11.0 (sem suporte)

Novos recursos e aprimoramentos

Nova versão do Apache Spark

Agora, os notebooks Python usam o kernel IPython

Suporte para ipywidgets

O conector do Synapse agora grava dados Parquet no modo não herdado

O esquema HTTPS agora é imposto quando o cliente ABFS usa o token SAS

SQL: agora DESC é um alias para DESCRIBE

SQL: a nova função current_version gera detalhes da versão

Remover uma restrição de tabela Delta ausente agora gera um erro

SQL: a nova cláusula EXCEPT na instrução SELECT exclui colunas da seleção

Suporte para remover colunas em tabelas Delta (versão prévia pública)

Aprimoramentos COPY INTO

O CONVERT TO DELTA agora é compatível com os ambientes habilitados para o Catálogo do Unity (Visualização Pública)

Alterações de comportamento

SQL: as funções lpad e rpad agora dão suporte a sequências de bytes

O formato de cadeia de caracteres em format_string e printf não permite mais %0$

Valores nulos em arquivos CSV agora são gravados por padrão como cadeias de caracteres vazias sem aspas

A propriedade de tabela external agora é reservada

O Log4j foi atualizado de Log4j 1 para Log4j 2

As bibliotecas instaladas por meio do Maven já são resolvidas no plano de computação por padrão

Correções de bug

Atualizações da biblioteca

Apache Spark

Nesta seção:

Spark SQL e Core

Modo ANSI

Aprimoramentos de recursos

Aprimoramentos de desempenho

Aprimoramentos de conector interno

Desativação de nó

Outras alterações importantes

Streaming estruturado

Principais recursos

Outras alterações importantes

PySpark

API do Pandas no Spark

Aprimoramentos principais

Principais recursos

Outras alterações importantes

Alterações de quebra

Principais recursos

MLLIB

Principais recursos

Aprimoramentos principais

Outras alterações importantes

SparkR

UI

Build

Atualizações de manutenção

Ambiente do sistema

Bibliotecas Python instaladas

Bibliotecas R instaladas

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

Recursos adicionais

SQL: agora `DESC` é um alias para `DESCRIBE`

SQL: a nova função `current_version` gera detalhes da versão

SQL: a nova cláusula `EXCEPT` na instrução `SELECT` exclui colunas da seleção

Aprimoramentos `COPY INTO`

O `CONVERT TO DELTA` agora é compatível com os ambientes habilitados para o Catálogo do Unity (Visualização Pública)

SQL: as funções `lpad` e `rpad` agora dão suporte a sequências de bytes

O formato de cadeia de caracteres em `format_string` e `printf` não permite mais `%0$`

A propriedade de tabela `external` agora é reservada