Aktualizace údržby modulu runtime Databricks

Tato stránka obsahuje seznam aktualizací pro údržbu vydaných pro Databricks Runtime vydání. Chcete-li přidat aktualizaci údržby do existujícího clusteru, restartujte cluster.

Poznámka

Tento článek obsahuje odkazy na seznam povolených termínů, termín, který Azure Databricks už nepoužívá. Po odebrání termínu ze softwaru ho odebereme z tohoto článku.

Podporované verze Databricks Runtime

Aktualizace údržby pro podporované verze Databricks Runtime:

Pro původní poznámky k verzi použijte odkaz pod podnadpis.

Databricks runtime 8,0

Viz Databricks Runtime 8,0.

    1. března 2021
    • [Spark-34681][SQL] Oprava chyby pro úplné vnější náhodné vyřazení při sestavování levé strany s neshodnou podmínkou
    • [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
    • [Spark-34613][SQL] zobrazení opravy nezachycuje konfiguraci nápovědy zakázání
    1. března 2021
    • [Spark-34543][SQL] respektuje spark.sql.caseSensitive konfiguraci při překladu specifikace oddílu v v1 SET LOCATION
    • [Spark-34392][SQL] podporuje ZoneOffset + H:mm v DateTimeUtils. getZoneId
    • [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
    • [Spark-34436][SQL] DPP podpora jako libovolný výraz/vše

Databricks Runtime 7,6

Viz Databricks Runtime 7,6.

    1. března 2021
    • [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
    • [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
    1. března 2021
    • (Jenom Azure) Opravili jsme chybu automatického zavaděče, která může způsobit NullPointerException při použití Databricks Runtime 7,6 ke spuštění starého streamu automatického zavaděče vytvořeného v Databricks Runtime 7,2.
    • [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
    • [SC-71131] Neznámý list-Node SparkPlan se nezpracovává správně v SizeInBytesOnlyStatsSparkPlanVisitor.
    • [ES-65064] Obnovení výstupního schématu SHOW DATABASES
    • [SC-70735] Rozdíl [8,0, 7,6] Opravená chyba výpočtu v logice automatického ladění velikosti souboru
    • [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
    • [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
    • [SC-69534] Zakázat podporu typů znaků v cestě kódu mimo SQL
    • [ES-66868] Vyhněte se NPE v DataFrameReader. Schema
    • [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
    • [SC-70392] Oprava chyby při čtení zavřeného streamu v automatickém zavaděči Azure
    • [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je povolený server AOS
    1. února 2021
    • Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
    • Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
    • Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    • [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
    • [Spark-34260][SQL] při vytváření dočasného zobrazení dvakrát vyřešte UnresolvedException.

Databricks Runtime 7,5

Viz Databricks Runtime 7,5.

    1. března 2021
    • [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
    • [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
    1. března 2021
    • (Jenom Azure) Opravili jsme chybu automatického zavaděče, která může způsobit NullPointerException při použití Databricks Runtime 7,5 ke spuštění starého streamu automatického zavaděče vytvořeného v Databricks Runtime 7,2.
    • [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
    • [SC-71131] Neznámý list-Node SparkPlan se nezpracovává správně v SizeInBytesOnlyStatsSparkPlanVisitor.
    • [ES-65064] Obnovení výstupního schématu SHOW DATABASES
    • [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
    • [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
    • [SC-69534] Zakázat podporu typů znaků v cestě kódu mimo SQL
    • [ES-66868] Vyhněte se NPE v DataFrameReader. Schema
    • [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
    • [SC-70392] Oprava chyby při čtení zavřeného streamu v automatickém zavaděči Azure
    1. února 2021
    • Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
    • Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
    • Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    • [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
    • [Spark-34260][SQL] při vytváření dočasného zobrazení dvakrát vyřešte UnresolvedException.
    1. února 2021
    • Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je SELECT * FROM table LIMIT nrows . Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci.
    • Zavedly se kontroly doby zápisu do klienta podregistru, aby nedocházelo k poškození metadat v metastore Hive pro rozdílové tabulky.
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Upgradujte sadu Azure Storage SDK z 2.3.8 na 2.3.9.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33480][SQL] aktualizuje chybovou zprávu pro kontrolu délky vložení tabulky char/varchar.

Databricks Runtime 7,4

Viz Databricks Runtime 7,4.

    1. března 2021
    • [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
    • [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
    1. března 2021
    • Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší více vylepšení stability.
    • [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
    • [ES-65064] Obnovení výstupního schématu SHOW DATABASES
    • [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
    • [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
    • [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
    • [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je povolený server AOS
    1. února 2021
    • Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
    • Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
    • Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    • [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
    • [Spark-33579][uživatelské rozhraní] oprava prázdné stránky vykonavatele za proxy serverem.
    • [Spark-20044][uživatelské rozhraní] podporuje Spark UI za front-end reverzní proxy s použitím předpony cesty.
    • [Spark-33277][PYSPARK] [SQL] pomocí ContextAwareIterator můžete přestat spotřebovávat po ukončení úlohy.
    1. února 2021
    • Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je SELECT * FROM table LIMIT nrows . Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci.
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
    • [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
    1. prosince 2020
    • [Spark-33587][jádro] ukončí vykonavatele na vnořených závažných chybách.
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • [Spark-33316][SQL] Podpora Avro schématu s možnou hodnotou null pro schéma Catalyst bez hodnoty null v zápisu Avro
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33404][SQL] [3.0] oprava špatných výsledků ve date_trunc výrazu
    • [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
    • [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
    • [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
    • [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    • [Spark-33272][SQL] vyřadí mapování atributů v QueryPlan. transformUpWithNewOutput.

Databricks Runtime 7,3 LTS

Viz Databricks Runtime 7,3 LTS.

    1. března 2021
    • [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
    • [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
    • [Spark-33118][SQL] vytvořit dočasnou tabulku selhává s umístěním
    1. března 2021
    • Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší více vylepšení stability.
    • [ES-69946] Oprava oddělovače cest ve Windows pro databricks-connect get-jar-dir
    • [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
    • [SC-52384] [DBCONNECT] Přidání podpory pro FlatMapCoGroupsInPandas v datacihlách Connect 7,3
    • [ES-65064] Obnovení výstupního schématu SHOW DATABASES
    • [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
    • [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
    • [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je server AOS povolený
    1. února 2021
    • Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
    • Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
    • Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    • [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
    • [Spark-33579][uživatelské rozhraní] oprava prázdné stránky vykonavatele za proxy serverem.
    • [Spark-20044][uživatelské rozhraní] podporuje Spark UI za front-end reverzní proxy s použitím předpony cesty.
    • [Spark-33277][PYSPARK] [SQL] pomocí ContextAwareIterator můžete přestat spotřebovávat po ukončení úlohy.
    1. února 2021
    • Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je SELECT * FROM table LIMIT nrows . Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci.
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
    • [Spark-33592][ml] [Python] v estimatorParamMaps se můžou po uložení a opětovném načtení ztratit parametry validátoru Pyspark ml.
    • [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
    1. prosince 2020
    • [Spark-33587][jádro] ukončí vykonavatele na vnořených závažných chybách.
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • [Spark-33316][SQL] Podpora Avro schématu s možnou hodnotou null pro schéma Catalyst bez hodnoty null v zápisu Avro
    • Úlohy Sparku spuštěné pomocí připojení datacihly se můžou Executor$TaskRunner.$anonfun$copySessionState v trasování zásobníku prováděče zablokovat na neomezenou dobu.
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33404][SQL] [3.0] oprava špatných výsledků ve date_trunc výrazu
    • [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
    • [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
    • [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
    • [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    1. listopadu 2020
    • Opravte ABFS a WASB uzamykání s ohledem na UserGroupInformation.getCurrentUser() .
    • Opravte chybu nekonečné smyčky, když čtecí modul Avro přečte MAGIC bajty.
    • Přidejte podporu pro oprávnění k používání.
    • Vylepšení výkonu pro kontrolu oprávnění v řízení přístupu k tabulce.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • Můžete číst a zapisovat z DBFS pomocí připojení zapékací jednotky na/dBFS/, pokud je povolený cluster s vysokou souběžnou platností přihlašovacích údajů. Běžná připojení jsou podporovaná, ale připojení, která vyžadují průchozí přihlašovací údaje, se ještě nepodporují.
    • [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
    • [Spark-32585][SQL] Podpora výčtu Scala v ScalaReflection
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
  • Září 29, 2020

    • [Spark-32718][SQL] odebrat nepotřebná klíčová slova pro jednotky intervalu
    • [Spark-32635][SQL] oprava šíření Foldable
    • Přidejte novou konfiguraci spark.shuffle.io.decoder.consolidateThreshold . Nastavte konfigurační hodnotu tak Long.MAX_VALUE , aby se přeskočila konsolidace FrameBuffers síťoviny, což zabrání java.lang.IndexOutOfBoundsException v rohových případech.

Databricks runtime 6,4

Viz Databricks Runtime 6,4 (Nepodporováno).

    1. března 2021
    • Port HADOOP-17215 do ovladače systému souborů objektů BLOB v Azure (podpora pro podmíněné přepsání).
    • [ES-69946] Oprava oddělovače cest ve Windows pro databricks-connect get-jar-dir
    • [SC-70754] Přidání podpory pro metastore Hive verze 2.3.5, 2.3.6 a 2.3.7
    • [SC-70681] Šipka "totalResultsCollected" nesprávně nahlásila po zalití
    1. února 2021
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    1. února 2021
    • Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je SELECT * FROM table LIMIT nrows . Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci.
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Běhový procesor 6,4 ML] Dříve jsme nainstalovali nesprávnou verzi (2.7.8-1 + CUDA 11.1) NCCL. Tato verze opravuje tuto verzi na 2.4.8-1 + CUDA 10.0, která je kompatibilní s CUDA 10,0.
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    • [Spark-32635][SQL] oprava šíření Foldable
    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
    1. září 2020
    • Opravili jsme předchozí omezení, kde průchozí cluster na úrovni Standard by stále omezil implementaci systému souborů používané uživatelem. Nyní by uživatelé měli přístup k místním systémům souborů bez omezení.
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    • Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
    1. srpna 2020
    • Pevné rozlišení nejednoznačného atributu při samostatném sloučení
    1. srpna 2020
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
  • Srpna 3, 2020

    • V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
    • Aktualizace zabezpečení operačního systému.
    1. července 2020
    • Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
  • Duben 21, 2020

    • [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
  • Duben 7, 2020

    • Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí ( ARROW_PRE_0_15_IPC_FORMAT=1 ), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
    1. března 2020
    • Optimalizované automatické škálování se teď ve výchozím nastavení používá u všech clusterů v Azure Databricks Premium plánu.
    • Konektor Snowflake ( spark-snowflake_2.11 ) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9. snowflake-jdbc je aktualizováno na verzi 3.12.0.

Databricks runtime 5,5 LTS

Viz Databricks Runtime 5,5 LTS.

    1. března 2021
    • Port HADOOP-17215 do ovladače systému souborů objektů BLOB v Azure (podpora pro podmíněné přepsání).
    1. února 2021
    • Byla představena nová konfigurace spark.databricks.hive.metastore.init.reloadFunctions.enabled . Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživatelé FunctionRegistry . Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • Oprava pro [HADOOP-17130].
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    • [Spark-32635][SQL] oprava šíření Foldable
    1. října 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
    1. září 2020
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    1. srpna 2020
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
  • Srpna 3, 2020

    • Aktualizace zabezpečení operačního systému
    1. července 2020
    • Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
  • Duben 21, 2020

    • [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
  • Duben 7, 2020

    • Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí ( ARROW_PRE_0_15_IPC_FORMAT=1 ), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
    1. března 2020
    • Konektor Snowflake ( spark-snowflake_2.11 ) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9. snowflake-jdbc je aktualizováno na verzi 3.12.0.
    1. března 2020
    • Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení spark.databricks.driver.disableScalaOutput Konfigurace Sparku na true . Ve výchozím nastavení je hodnota příznaku false . Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
    1. února 2020
    • [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
    • Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
    1. ledna 2020
    • [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
    1. ledna 2020
    • Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
    1. listopadu 2019
    • [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
    • Verze R byla neúmyslně upgradována na 3.6.1 z 3.6.0. Převedli jsme to zpátky na 3.6.0.
    1. listopadu 2019
    • Upgradovaná verze Java z 1.8.0 _212 na 1.8.0 _222.
  • Říjen 23, 2019

    • [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
  • Říjen 8, 2019

    • Změny na straně serveru, které umožňují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje Simba ovladač odbc Apache Spark verze 2.6.10).
    • Opravili jsme problém, který ovlivňuje použití Optimize příkazu s clustery s povoleným seznamem ACL tabulky.
    • Opravili jsme problém, kdy pyspark.ml by knihovny selhaly kvůli chybě systému souborů UDF v seznamu ACL Scala a u clusterů s povoleným průchodem přihlašovacích údajů.
    • Allowlisted SerDe a SerDeUtil metody pro průchozí přihlašovací údaje.
    • Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
    1. září 2019
    • Zlepšená stabilita zapisovače Parquet.
    • Opravili jsme problém, že se Thrift dotaz zrušil předtím, než se spustí, může se zablokovat ve stavu spuštění.
    1. září 2019
    • Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
    • [Spark-27992][Spark-28881]povolí Pythonu připojit se k vláknu připojení k šíření chyb.
    • Opravili jsme chybu ovlivňující určité globální agregační dotazy.
    • Vylepšené redigování přihlašovacích údajů.
    • [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
    • [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
    • [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
    1. srpna 2019
    • [Spark-20906][SQL] povolení uživatelsky definovaného schématu v rozhraní API to_avro v registru schématu
    • [Spark-27838][SQL] podpora, kterou zadal uživatel, který nepovoluje hodnotu null schématu Avro pro prázdné schéma Catalyst bez jakéhokoli záznamu s hodnotou null
    • Vylepšení na cestách na rozdíl od času Lake Lake
    • Vyřešil se problém ovlivňující určitý transform výraz.
    • Podporuje proměnné vysílání, když je povolená izolace procesu.
  • VIII 13. srpna 2019

    • Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
    • [Spark-28260] Přidat UZAVŘENý stav do ExecutionState
    • [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
    1. července 2019
    • [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
    • [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
    • [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
    • [Spark-28355][Core] [Python] použití Spark conf pro prahovou hodnotu, při které je systém souborů UDF komprimováný všesměrovým vysíláním

Datacihly – světlá 2,4

Viz datacihly Light 2,4.

    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
  • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.

    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    1. října 2020
    • Aktualizace zabezpečení operačního systému.

Nepodporované verze Databricks Runtime

Aktualizace údržby pro nepodporované verze Databricks Runtime:

Pro původní poznámky k verzi použijte odkaz pod podnadpis.

Databricks Runtime 7,2 (nepodporované )

Viz Databricks Runtime 7,2 (Nepodporováno).

    1. února 2021
    • Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je SELECT * FROM table LIMIT nrows . Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci.
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
    • [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • [Spark-33404][SQL] oprava špatných výsledků ve date_trunc výrazu
    • [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
    • [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
  • Září 29, 2020

    • [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
    • [Spark-32635][SQL] oprava šíření Foldable
    • Přidejte novou konfiguraci spark.shuffle.io.decoder.consolidateThreshold . Nastavte konfigurační hodnotu tak Long.MAX_VALUE , aby se přeskočila konsolidace FrameBuffers síťoviny, což zabrání java.lang.IndexOutOfBoundsException v rohových případech.
    1. září 2020
    • [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
    • [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
    • [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.

Databricks Runtime 7,1 (nepodporované )

Viz Databricks Runtime 7,1 (Nepodporováno).

    1. února 2021
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
    • [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • Úlohy Sparku spuštěné pomocí připojení datacihly se můžou Executor$TaskRunner.$anonfun$copySessionState v trasování zásobníku prováděče zablokovat na neomezenou dobu.
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33404][SQL] [3.0] oprava špatných výsledků ve date_trunc výrazu
    • [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
    • [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
    • [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
    • [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
  • Září 29, 2020

    • [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
    • [Spark-32635][SQL] oprava šíření Foldable
    • Přidejte novou konfiguraci spark.shuffle.io.decoder.consolidateThreshold . Nastavte konfigurační hodnotu tak Long.MAX_VALUE , aby se přeskočila konsolidace FrameBuffers síťoviny, což zabrání java.lang.IndexOutOfBoundsException v rohových případech.
    1. září 2020
    • [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
    • [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
    • [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    1. srpna 2020
    • [Spark-32159][SQL] oprava integrace mezi Aggregator[Array[_], _, _] a UnresolvedMapObjects
    • [Spark-32559][SQL] opravit logiku střihu v UTF8String.toInt/toLong , která nezpracovává správně znaky jiné než ASCII
    • [Spark-32543][R] odebrat arrow::as_tibble použití v Sparku
    • [Spark-32091][Core] ignorovat při odebírání bloků u ztraceného vykonavatele chybu timeout
    • Opravili jsme problém ovlivňující konektor Azure synapse s přihlašovacími údaji MSI.
    • Pevné rozlišení nejednoznačného atributu při samostatném sloučení
    1. srpna 2020
    • [Spark-32594][SQL] opravit serializaci dat vložených do tabulek podregistru
    • [Spark-32237][SQL] vyřešit pomocný parametr v CTE
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • [Spark-32467][uživatelské rozhraní] Vyhněte se kódování adresy URL dvakrát při přesměrování https
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-32280][Spark-32372][SQL] ResolveReferences. dedupRight by měl přepsat pouze atributy pro uzly předchůdce plánu konfliktů.
    • [Spark-32234][SQL] příkazy SQL Sparku při výběru tabulek ORC selžou.
  • Srpna 3, 2020

    • V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.

Databricks Runtime 7,0 (nepodporované )

Viz Databricks Runtime 7,0 (Nepodporováno).

    1. února 2021
    • Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
    1. ledna 2021
    • Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
      • Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například df.join(df.select($"col" as "new_col"), cond).
      • Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
      • Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například df.join(df.drop("a"), df("a") === 1).
    1. ledna 2021
    • Aktualizace zabezpečení operačního systému.
    • [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
    • [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
    • [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
    1. prosince 2020
    • [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
    • [Spark-33404][SQL] oprava špatných výsledků ve date_trunc výrazu
    • [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
    • [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
    • [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
    • Aktualizace zabezpečení operačního systému.
    1. prosince 2020
    • [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
  • Září 29, 2020

    • [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
    • [Spark-32635][SQL] oprava šíření Foldable
    • Přidejte novou konfiguraci spark.shuffle.io.decoder.consolidateThreshold . Nastavte konfigurační hodnotu tak Long.MAX_VALUE , aby se přeskočila konsolidace FrameBuffers síťoviny, což zabrání java.lang.IndexOutOfBoundsException v rohových případech.
    1. září 2020
    • [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
    • [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
    • [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    1. srpna 2020
    • [Spark-32159][SQL] oprava integrace mezi Aggregator[Array[_], _, _] a UnresolvedMapObjects
    • [Spark-32559][SQL] opravit logiku střihu v UTF8String.toInt/toLong , která nezpracovává správně znaky jiné než ASCII
    • [Spark-32543][R] odebrat arrow::as_tibble použití v Sparku
    • [Spark-32091][Core] ignorovat při odebírání bloků u ztraceného vykonavatele chybu timeout
    • Opravili jsme problém ovlivňující konektor Azure synapse s přihlašovacími údaji MSI.
    • Pevné rozlišení nejednoznačného atributu při samostatném sloučení
    1. srpna 2020
    • [Spark-32594][SQL] opravit serializaci dat vložených do tabulek podregistru
    • [Spark-32237][SQL] vyřešit pomocný parametr v CTE
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • [Spark-32467][uživatelské rozhraní] Vyhněte se kódování adresy URL dvakrát při přesměrování https
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-32280][Spark-32372][SQL] ResolveReferences. dedupRight by měl přepsat pouze atributy pro uzly předchůdce plánu konfliktů.
    • [Spark-32234][SQL] příkazy SQL Sparku při výběru tabulek ORC selžou.
    • V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.

Databricks runtime 6,6 (nepodporované )

Viz Databricks Runtime 6,6 (Nepodporováno).

    1. prosince 2020
    • [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
    • [Spark-32635][SQL] oprava šíření Foldable
    1. listopadu 2020
    • Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
    • Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
    • Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
    1. října 2020
    • Aktualizace zabezpečení operačního systému.
    • [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
    • Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
    • Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
    1. září 2020
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    • Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
    1. srpna 2020
    • Pevné rozlišení nejednoznačného atributu při samostatném sloučení
    1. srpna 2020
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
    • [Spark-31967][uživatelské rozhraní] downgrade na vis.js 4.21.0 k opravě času načítání uživatelského rozhraní úloh regrese
  • Srpna 3, 2020

    • V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
    • Aktualizace zabezpečení operačního systému.

Databricks runtime 6,5 (nepodporované )

Viz Databricks Runtime 6,5 (Nepodporováno).

    1. září 2020
    • Opravili jsme předchozí omezení, kde průchozí cluster na úrovni Standard by stále omezil implementaci systému souborů používané uživatelem. Nyní by uživatelé měli přístup k místním systémům souborů bez omezení.
    • Aktualizace zabezpečení operačního systému.
    1. září 2020
    • Pro Azure synapse Analytics byl vytvořen nový parametr maxbinlength . Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jako VARBINARY(maxbinlength) . Dá se nastavit pomocí .option("maxbinlength", n) , kde 0 < n <= 8000.
    • Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
    1. srpna 2020
    • Pevné rozlišení nejednoznačného atributu při samostatném sloučení
    1. srpna 2020
    • [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
    • V konektoru AQS se při použití triggeru opravila podmínka časování.
    1. srpna 2020
    • [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
  • Srpna 3, 2020
    • V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
    • Aktualizace zabezpečení operačního systému.
    1. července 2020
    • Upgradovaná verze Java z 1.8.0 _242 na 1.8.0 _252.
  • Duben 21, 2020
    • [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper

Databricks runtime 6,3 (nepodporované )

Viz Databricks Runtime 6,3 (Nepodporováno).

    1. července 2020
    • Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
  • Duben 21, 2020
    • [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
  • Duben 7, 2020
    • Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí ( ARROW_PRE_0_15_IPC_FORMAT=1 ), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
    1. března 2020
    • Konektor Snowflake ( spark-snowflake_2.11 ) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9. snowflake-jdbc je aktualizováno na verzi 3.12.0.
    1. února 2020
    • Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
    1. února 2020
    • [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
    • [Spark-30447][SQL] problém s hodnotou null šíření konstanty
    • [Spark-28152][SQL] přidání starší verze služby conf pro staré MsSqlServerDialect číselné mapování
    • Allowlisted funkci overwrite tak, aby MLModels rozšiřuje MLWriter funkce.

Databricks runtime 6,2 (nepodporované )

Viz Databricks Runtime 6,2 (Nepodporováno).

  • Duben 21, 2020
    • [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
  • Duben 7, 2020
    • Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí ( ARROW_PRE_0_15_IPC_FORMAT=1 ), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
    1. března 2020
    • Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení spark.databricks.driver.disableScalaOutput Konfigurace Sparku na true . Ve výchozím nastavení je hodnota příznaku false . Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
    1. března 2020
    • Konektor Snowflake ( spark-snowflake_2.11 ) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9. snowflake-jdbc je aktualizováno na verzi 3.12.0.
    1. února 2020
    • [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
    • Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
    1. ledna 2020
    • Allowlisted ML zapisovače modelů – funkce přepisu pro clustery s povoleným průchodem přihlašovacích údajů, aby model Save mohl používat režim přepisu pro průchozí clustery přihlašovacích údajů.
    • [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
    • [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
    1. ledna 2020
    • Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
  • Od 10. prosince 2019
    • [Spark-29904][SQL] analyzuje časová razítka s mikropřesností s použitím datových zdrojů JSON/CSV s mikrosekundou.

Databricks runtime 6,1 (nepodporované )

Viz Databricks Runtime 6,1 (Nepodporováno).

  • Duben 7, 2020
    • Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí ( ARROW_PRE_0_15_IPC_FORMAT=1 ), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
    1. března 2020
    • Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení spark.databricks.driver.disableScalaOutput Konfigurace Sparku na true . Ve výchozím nastavení je hodnota příznaku false . Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
    1. března 2020
    • Konektor Snowflake ( spark-snowflake_2.11 ) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9. snowflake-jdbc je aktualizováno na verzi 3.12.0.
    1. února 2020
    • [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
    • Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
    1. ledna 2020
    • [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
    • [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
    1. ledna 2020
    • Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
    1. listopadu 2019
    1. listopadu 2019
    • Opravili jsme chybu v DBFS pojistky ke zpracování přípojných bodů, které mají // v cestě.
    • [Spark-29081] Nahraďte volání SerializationUtils. Clone u vlastností pomocí rychlejší implementace.
    • [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
    • (6,1 ml) MKL knihovny verze 2019,4 byla neúmyslně nainstalována. Převedli jsme ji na MKL verze 2019,3, aby odpovídala Anaconda distribuci 2019,03.

Databricks runtime 6,0 (nepodporované )

Viz Databricks Runtime 6,0 (Nepodporováno).

    1. března 2020
    • Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení spark.databricks.driver.disableScalaOutput Konfigurace Sparku na true . Ve výchozím nastavení je hodnota příznaku false . Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
    1. února 2020
    • Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
    1. února 2020
    • [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
    1. ledna 2020
    • [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
    • [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
    1. ledna 2020
    • Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
    1. listopadu 2019
    • [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
    1. listopadu 2019
    • dbutils.tensorboard.start() nyní podporuje TensorBoard 2,0 (Pokud je nainstalován ručně).
    • Opravili jsme chybu v DBFS pojistky ke zpracování přípojných bodů, které mají // v cestě.
    • [Spark-29081] Nahraďte volání SerializationUtils. Clone u vlastností pomocí rychlejší implementace.
  • Říjen 23, 2019
    • [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
  • Říjen 8, 2019
    • Změny na straně serveru, které umožňují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje Simba ovladač odbc Apache Spark verze 2.6.10).
    • Opravili jsme problém, který ovlivňuje použití Optimize příkazu s clustery s povoleným seznamem ACL tabulky.
    • Opravili jsme problém, kdy pyspark.ml by knihovny selhaly kvůli chybě systému souborů UDF v seznamu ACL Scala a u clusterů s povoleným průchodem přihlašovacích údajů.
    • Allowlisted SerDe/SerDeUtil metody pro průchozí přihlašovací údaje.
    • Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
    • Opravili jsme problém, kdy přihlašovací údaje uživatele nebyly předány úlohám vytvořeným pomocí dbutils.notebook.run() .

Databricks runtime 5,4 ml (nepodporované )

Machine Learning (nepodporované)najdete v tématu Databricks runtime 5,4.

    1. června 2019
    • Vylepšené zpracování MLflow aktivních běhů v integraci Hyperopt
    • Vylepšené zprávy v Hyperopt
    • Aktualizovaný balíček markdown z 3,1 na 3.1.1

Databricks runtime 5,4 (nepodporované )

Viz Databricks Runtime 5,4 (Nepodporováno).

    1. listopadu 2019
    • [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
  • Říjen 8, 2019
    • Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
    • Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
    1. září 2019
    • Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
    • Opravili jsme chybu ovlivňující určité globální agregační dotazy.
    • [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
    • [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
    • [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
    • [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
    1. srpna 2019
    • Opravili jsme problém ovlivňující určité transform výrazy.
  • VIII 13. srpna 2019
    • Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
    • [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
    1. července 2019
    • [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
    • [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
    • [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
    1. července 2019
    • Upgradovaná přichycení – Java z 1.1.7.1 do 1.1.7.3.
    1. června 2019
    • Vylepšené zpracování MLflow aktivních běhů v integraci MLlib
    • Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
    • Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
    • Opravila se chyba ovlivňující dotazy na rozdílové metadata

Databricks runtime 5,3 (nepodporované )

Viz Databricks Runtime 5,3 (Nepodporováno).

    1. listopadu 2019
    • [Spark-29743][SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
  • Říjen 8, 2019
    • Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
    • Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
    1. září 2019
    • Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
    • Opravili jsme chybu ovlivňující určité globální agregační dotazy.
    • [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
    • [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
    • [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
    • [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
    1. srpna 2019
    • Opravili jsme problém ovlivňující určité transform výrazy.
  • VIII 13. srpna 2019
    • Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
    • [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
    1. července 2019
    • [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
    • [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
    • [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
    1. června 2019
    • Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
    • Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
    • Opravila se chyba ovlivňující dotazy na rozdílové metadata
    1. května 2019
    • Vylepšení stability rozdílu
    • Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
      • Přidání obnovení do neúspěšné instalace knihovny
    1. května 2019
    • Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
    • Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
    • Opravila se chyba ovlivňující seznamy ACL tabulky.
    • Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
    • Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
    • Zajistěte, aby se mezipaměť DBIO při povolování seznamů ACL tabulky neaktivovala.
    • [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
    • [SPARK-27446] [R] Pokud je dostupná, použijte existující Spark conf.
    • [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
    • [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
    • [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager

Databricks runtime 5,2 (nepodporované )

Viz Databricks Runtime 5,2 (Nepodporováno).

    1. září 2019
    • Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
    • Opravili jsme chybu ovlivňující určité globální agregační dotazy.
    • [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
    • [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
    • [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
    • [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
    1. srpna 2019
    • Opravili jsme problém ovlivňující určité transform výrazy.
  • VIII 13. srpna 2019
    • Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
    • [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
    1. července 2019
    • [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
    • [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
    • [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
    1. července 2019
    • Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
    1. června 2019
    • Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
    • Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
    • Opravila se chyba ovlivňující dotazy na rozdílové metadata
    1. května 2019
    • Přidání obnovení do neúspěšné instalace knihovny
    1. května 2019
    • Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
    • Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
    • Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
    • Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
    • Zajistěte, aby se mezipaměť DBIO při povolování seznamů ACL tabulky neaktivovala.
    • [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
    • [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
    • [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
    • [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
    1. března 2019
    • Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
    • [Spark-26665][Core] Opravte chybu, kterou BlockTransferService. fetchBlockSync může zablokovat trvale.
    • [Spark-27134][SQL] funkce array_distinct nefunguje správně se sloupci obsahujícími pole Array.
    • [Spark-24669][SQL] zrušení platnosti tabulek v případě kaskádové databáze.
    • [Spark-26572][SQL] opravit agregované vyhodnocení výsledků CodeGen
    • Opravila se chyba ovlivňující určité PythonUDFs.
    1. února 2019
    • Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
    • [Spark-26887][Python] vytvořit datum a čas přímo místo vytvoření datetime64 jako mezilehlých dat.
    • Opravili jsme chybu ovlivňující JDBC/ODBC server.
    • Opravila se chyba ovlivňující PySpark.
    • Při sestavování HadoopRDD vylučte skryté soubory.
    • Opravili jsme chybu v rozdílu, která způsobila problémy s serializací.
    1. února 2019
    • Opravili jsme problém, který se týká rozdílu pomocí ADLS Gen2 přípojných bodů Azure.
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    • [Spark-26706][SQL] Oprava illegalNumericPrecedence pro ByteType.
    • [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
    • Zdroje dat CSV/JSON by se měly vyhnout cestám s expanzí kódu při odvozování schématu.
    • Pevné odvození omezení se vychází z operátoru Window.
    • Opravili jsme problém ovlivňující instalaci knihoven vajec s clustery, které mají povolený seznam ACL tabulky.

Databricks runtime 5,1 (nepodporované )

Viz Databricks Runtime 5,1 (Nepodporováno).

  • VIII 13. srpna 2019
    • Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
    • [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
    1. července 2019
    • [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
    • [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
    • [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
    1. července 2019
    • Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
    1. června 2019
    • Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
    • Opravila se chyba ovlivňující dotazy na rozdílové metadata
    1. května 2019
    • Přidání obnovení do neúspěšné instalace knihovny
    1. května 2019
    • Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
    • Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
    • Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
    • Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
    • [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
    • [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
    • [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
    • [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
    1. března 2019
    • Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
    • Opravila se chyba ovlivňující určité PythonUDFs.
    1. února 2019
    • Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
    • Opravili jsme chybu ovlivňující JDBC/ODBC server.
    • Při sestavování HadoopRDD vylučte skryté soubory.
    1. února 2019
    • Opravili jsme problém ovlivňující instalaci knihoven vajec s clustery, které mají povolený seznam ACL tabulky.
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    • [Spark-26706][SQL] Oprava illegalNumericPrecedence pro ByteType.
    • [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
    • Pevné odvození omezení se vychází z operátoru Window.
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili jsme problém, který může mít za následek, že parametr df.rdd.count() UDT vrátí nesprávnou odpověď pro určité případy.
    • Opravili jsme problém ovlivňující instalaci kormidelních.
    • [Spark-26267] Zkuste to znovu, když se detekuje nesprávná posunutí z Kafka.
    • Opravili jsme chybu, která má vliv na více zdrojů datových proudů souborů v dotazu streamování.
    • Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    1. ledna 2019
    • Opraven problém, který org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted způsobuje chybu
    • [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
    • [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
    • Vylepšení stability pro rozdílový Lake.
    • Je povolený rozdílový Lake.
    • Opravili jsme problém, který způsobil neúspěšnou Azure Data Lake Storage Gen2 přístup, když je pro Azure Data Lake Storage Gen1 povolené průchozí přihlašovací údaje Azure AD.
    • Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.

Databricks runtime 5,0 (nepodporované )

Viz Databricks Runtime 5,0 (Nepodporováno).

    1. června 2019
    • Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
    1. května 2019
    • Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
    • Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
    • [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
    • [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
    • [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
      • [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
    1. března 2019
    • Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
    • Opravila se chyba ovlivňující určité PythonUDFs.
    1. března 2019
    • Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
    1. února 2019
    • Opravili jsme chybu ovlivňující JDBC/ODBC server.
    • Při sestavování HadoopRDD vylučte skryté soubory.
    1. února 2019
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    • [Spark-26706][SQL] Oprava illegalNumericPrecedence pro ByteType.
    • [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
    • Pevné odvození omezení se vychází z operátoru Window.
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili jsme problém, který může mít za následek, že parametr df.rdd.count() UDT vrátí nesprávnou odpověď pro určité případy.
    • [Spark-26267] Zkuste to znovu, když se detekuje nesprávná posunutí z Kafka.
    • Opravili jsme chybu, která má vliv na více zdrojů datových proudů souborů v dotazu streamování.
    • Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    1. ledna 2019
    • Byl opraven problém, který způsobil chybu org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted .
    • [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
    • [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
    • Vylepšení stability pro rozdílový Lake.
    • Je povolený rozdílový Lake.
    • Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
    1. prosince 2018
    • [Spark-26293] Výjimka při přetypování při poddotazu Python UDF
    • Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
    • Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
    1. prosince 2018
    • Opravili jsme problém, který způsobil nesprávný výsledek dotazu při použití orderBy následovaných operátorem Group by, a to jako úvodní část klíče pro řazení podle klíče.
    • Upgradován konektor Snowflake pro Spark z 2.4.9.2 – spark_2.4_pre_release na 2.4.10.
    • Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech, spark.sql.files.ignoreCorruptFiles Když spark.sql.files.ignoreMissingFiles je povolen nebo příznak
    • Opravili jsme problém ovlivňující některé dotazy sjednocení.
    • Opravili jsme chybu se serverem Thrift, kde se při zrušení relace někdy nevrací.
    • [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
    • [Spark-26147] UDF Pythonu ve stavu JOIN selže, i když se používají sloupce jenom z jedné strany spojení.
    • [Spark-26211] Opravte vsazení pro binární a struktur a pole s hodnotou null.
    • [Spark-26181] hasMinMaxStats metoda pro ColumnStatsMap není správná.
    • Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
    1. listopadu 2018
    • Opravili jsme problém, který způsobil, že se Poznámkový blok nedala použít po zrušení dotazu streamování.
    • Opravili jsme problém ovlivňující určité dotazy pomocí funkcí okna.
    • Opravili jsme problém ovlivňující datový proud z rozdílu s více změnami schématu.
    • Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.

Databricks runtime 4,3 (nepodporované )

Viz Databricks Runtime 4,3 (Nepodporováno).

    1. dubna 2019
    • [Spark-26665][Core] Opravte chybu, která může způsobit, že BlockTransferService. fetchBlockSync zareaguje trvale.
    • [Spark-24669][SQL] zrušení platnosti tabulek v případě kaskádové databáze.
    1. března 2019
    • Opravila se chyba, která má vliv na generování kódu.
    • Opravila se chyba ovlivňující rozdíl.
    1. února 2019
    • Opravili jsme chybu ovlivňující JDBC/ODBC server.
    1. února 2019
    • [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
    • Vyloučení skrytých souborů při sestavování HadoopRDD.
    • Pevný převod filtru Parquet pro predikát IN, pokud je jeho hodnota prázdná.
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili jsme problém, který může mít za následek, že parametr df.rdd.count() UDT vrátí nesprávnou odpověď pro určité případy.
    • Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
    1. ledna 2019
    • Opravili jsme problém, který způsobuje chybu org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted .
    • Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
    • [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
    • [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
    • Je povolený rozdílový Lake.
    • Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
    1. prosince 2018
    • [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
    • Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
    • [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
    • Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech, spark.sql.files.ignoreCorruptFiles Když spark.sql.files.ignoreMissingFiles je povolen nebo příznak
    • [Spark-26181] hasMinMaxStats metoda pro ColumnStatsMap není správná.
    • Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
    • Opravili jsme problém s výkonem v analyzátoru dotazů.
    • Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
    • Opravili jsme problém ovlivňující některé dotazy sjednocení.
    1. listopadu 2018
    • [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
    • [Spark-25387] Oprava pro NPE způsobila Chybný vstup sdíleného svazku clusteru.
    • Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
    1. listopadu 2018
    • [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
    • [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
    • Opravili jsme problém ovlivňující vyčištění dočasných objektů v konektoru synapse Analytics.
    • [Spark-25816] Opravte rozlišení atributů ve vnořených extraktorech.
    1. října 2018
    • Opravili jsme chybu, která má vliv na výstup běžící SHOW CREATE TABLE na rozdílových tabulkách.
    • Opravila se chyba ovlivňující Union operaci.
    1. září 2018
    • [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
    • [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
    • Opraveno NotSerializableException ve zdroji dat Avro.
    1. září 2018
    • [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když failOnDataLoss=false .
    • [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
    • Omezení filtru by mělo správně zpracovat hodnotu null.
    • Zlepšená stabilita prováděcího modulu.
  • Srpna 28, 2018

    • Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
    • [Spark-25142] Přidejte chybové zprávy, když pracovník Pythonu nemohl otevřít zásuvku v _load_from_socket .
  • Srpna 23, 2018

    • [Spark-23935]mapEntry vyvolá org.codehaus.commons.compiler.CompileException .
    • Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
    • [Spark-25051][SQL] FixNullability by se nemělo zastavit na AnalysisBarrier.
    • [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
    • Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
    • [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
    • [Spark-25096] Možnost vyhodnotit hodnotu null, je-li přetypování vynuceno s hodnotou null.
    • Byl snížen výchozí počet vláken používaných příkazem Delta Lake Optimize, což snižuje nároky na paměť a rychleji potvrzování dat.
    • [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
    • Pevné přeredigování správce tajného klíče, když je příkaz částečně úspěšný

Databricks runtime 4,2 (nepodporované )

Viz Databricks Runtime 4,2 (Nepodporováno).

    1. února 2019
    • Opravili jsme chybu ovlivňující JDBC/ODBC server.
    1. února 2019
    • [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
    • Vyloučení skrytých souborů při sestavování HadoopRDD.
    • Pevný převod filtru Parquet pro predikát IN, pokud je jeho hodnota prázdná.
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili jsme problém, který může mít za následek, že parametr df.rdd.count() UDT vrátí nesprávnou odpověď pro určité případy.
    1. ledna 2019
    • Opraven problém, který org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted způsobuje chybu
    • Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
    • [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
    • [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
    • Je povolený rozdílový Lake.
    • Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
    1. prosince 2018
    • [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
    • Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
    • [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
    • Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech, spark.sql.files.ignoreCorruptFiles Když spark.sql.files.ignoreMissingFiles je povolen nebo příznak
    • [Spark-26181] hasMinMaxStats metoda pro ColumnStatsMap není správná.
    • Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
    • Opravili jsme problém s výkonem v analyzátoru dotazů.
    • Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
    • Opravili jsme problém ovlivňující některé dotazy sjednocení.
    1. listopadu 2018
    • [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
    • Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
    1. listopadu 2018
    • [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
    • [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
    1. října 2018
    • Opravili jsme chybu, která má vliv na výstup běžící SHOW CREATE TABLE na rozdílových tabulkách.
    • Opravila se chyba ovlivňující Union operaci.
    1. září 2018
    • [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
    • [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
    • Opraveno NotSerializableException ve zdroji dat Avro.
    1. září 2018
    • [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když failOnDataLoss=false .
    • [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
    • Omezení filtru by mělo správně zpracovat hodnotu null.
  • Srpna 28, 2018

    • Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
  • Srpna 23, 2018

    • Pevný NoClassDefError pro rozdílový snímek
    • [Spark-23935]mapEntry vyvolá org.codehaus.commons.compiler.CompileException .
    • [Spark-24957][SQL] průměr s desetinnou čárkou následovaný agregací vrátí špatný výsledek. Mohou být vráceny nesprávné výsledky AVERAGE. Přetypování přidané v operátoru průměr bude vynecháno, je-li výsledek dělení stejný jako stejný typ, na který je převeden.
    • [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
    • Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
    • [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
    • [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
    • [Spark-24934][SQL] explicitně povolených podporované typy v horních a dolních mezích pro vyřazování oddílů v paměti. Když se ve filtrech dotazů na data v mezipaměti používá komplexní datové typy, Spark vždycky vrátí prázdnou sadu výsledků. Vyřazení na základě statistiky v paměti generuje nesprávné výsledky, protože u horních a dolních mezí pro komplexní typy je nastavená hodnota null. Oprava nepoužívá vyřazení na základě statistik v paměti pro komplexní typy.
    • Pevné přeredigování správce tajného klíče, když je příkaz částečně úspěšný
    • Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
  • Srpna 2, 2018

    • Do Pythonu se přidalo rozhraní API writeStream. Table.
    • Opravili jsme problém, který ovlivňuje rozdílové kontrolní body.
    • [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
    • Opravili jsme problém, který by mohl způsobit, že mergeInto příkaz vyprodukuje nesprávné výsledky.
    • Lepší stabilita při přístupu k Azure Data Lake Storage Gen1.
    • [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
    • [Spark-24878][SQL] opravte funkci reverzní funkce pro typ pole primitivního typu obsahujícího hodnotu null.
    1. července 2018
    • Opravili jsme chybu při provádění dotazu, která by způsobila, že agregace na desetinných sloupcích s různými přesnostmi vracely v některých případech nesprávné výsledky.
    • Opravili NullPointerException jsme chybu, která se vyvolala během pokročilých agregačních operací, jako jsou skupiny seskupení.

Databricks runtime 4,1 ml (nepodporované )

Viz Databricks Runtime 4,1 ml (Nepodporováno).

    1. července 2018
    • Přidání služby Azure synapse Analytics do ML runtime 4,1
    • Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
    • Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
    • Opravila se chyba, která má vliv na generování kódu.
    • Opravili jsme chybu ( java.lang.NoClassDefFoundError ), která má vliv na rozdílový Lake.
    • Vylepšené zpracování chyb v rozdílovém Lake.
    • Opravili jsme chybu, která způsobila nesprávná data přeskočení statistik pro sloupce řetězců 32 znaků nebo větší.

Databricks runtime 4,1 (nepodporované )

Viz Databricks Runtime 4,1 (Nepodporováno).

    1. ledna 2019
    • [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
    • Je povolený rozdílový Lake.
    1. prosince 2018
    • [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
    • Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
    • [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
    • Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech, spark.sql.files.ignoreCorruptFiles Když spark.sql.files.ignoreMissingFiles je povolen nebo příznak
    • Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
    • Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
    • Opravili jsme problém ovlivňující některé dotazy sjednocení.
    1. listopadu 2018
    • [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
    • Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
    1. listopadu 2018
    • [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
    • [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
    1. října 2018
    • Opravili jsme chybu, která má vliv na výstup běžící SHOW CREATE TABLE na rozdílových tabulkách.
    • Opravila se chyba ovlivňující Union operaci.
    1. září 2018
    • [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
    • [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
    • Opraveno NotSerializableException ve zdroji dat Avro.
    1. září 2018
    • [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když failOnDataLoss=false .
    • [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
    • Omezení filtru by mělo správně zpracovat hodnotu null.
  • Srpna 28, 2018

    • Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
    • [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
    • [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
  • Srpna 23, 2018

    • Pevný NoClassDefError pro rozdílový snímek.
    • [Spark-24957][SQL] průměr s desetinnou čárkou následovaný agregací vrátí špatný výsledek. Mohou být vráceny nesprávné výsledky AVERAGE. Přetypování přidané v operátoru průměr bude vynecháno, je-li výsledek dělení stejný jako stejný typ, na který je převeden.
    • Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
    • [Spark-24934][SQL] explicitně povolených podporované typy v horních a dolních mezích pro vyřazování oddílů v paměti. Když se ve filtrech dotazů na data v mezipaměti používá komplexní datové typy, Spark vždycky vrátí prázdnou sadu výsledků. Vyřazení na základě statistiky v paměti generuje nesprávné výsledky, protože u horních a dolních mezí pro komplexní typy je nastavená hodnota null. Oprava nepoužívá vyřazení na základě statistik v paměti pro komplexní typy.
    • [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
    • Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
    • Pevné přeredigování správce tajného klíče při úspěšném provedení příkazu
  • Srpna 2, 2018

    • [Spark-24613][SQL] mezipaměť se systémem souborů UDF nemohla odpovídat následným závislým mezipamětem. Zabalí logický plán s AnalysisBarrier pro plánování spuštění v CacheManager, aby se plán znovu neanalyzoval. To je také regrese Spark 2,3.
    • Opravili jsme problém konektoru synapse Analytics, který má vliv na převod časového pásma pro zápis dat DateType.
    • Opravili jsme problém, který ovlivňuje rozdílové kontrolní body.
    • Opravili jsme problém, který by mohl způsobit, že mergeInto příkaz vyprodukuje nesprávné výsledky.
    • [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
    • [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
    1. července 2018
    • Opravili jsme chybu při provádění dotazu, která by způsobila, že agregace na desetinných sloupcích s různými přesnostmi vracely v některých případech nesprávné výsledky.
    • Opravili NullPointerException jsme chybu, která se vyvolala během pokročilých agregačních operací, jako jsou skupiny seskupení.
    1. června 2018
    • Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
    1. června 2018
    • Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
    • Opravila se chyba, která má vliv na generování kódu.
    • Opravili jsme chybu ( java.lang.NoClassDefFoundError ), která má vliv na rozdílový Lake.
    • Vylepšené zpracování chyb v rozdílovém Lake.
    1. května 2018
    • Opravili jsme chybu, která způsobila nesprávná data přeskočení statistik pro sloupce řetězců 32 znaků nebo větší.

Databricks runtime 4,0 (nepodporované )

Viz Databricks Runtime 4,0 (Nepodporováno).

    1. listopadu 2018
    • [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
    1. října 2018
    • Opravila se chyba ovlivňující Union operaci.
    1. září 2018
    • [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
    • [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
    • Opraveno NotSerializableException ve zdroji dat Avro.
    1. září 2018
    • Omezení filtru by mělo správně zpracovat hodnotu null.
  • Srpna 28, 2018

    • Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
  • Srpna 23, 2018

    • Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
    • Pevné přeredigování správce tajného klíče při úspěšném provedení příkazu
    • Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
    • [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
    • [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
  • Srpna 2, 2018

    • [Spark-24452] Vyhněte se možnému přetečení v int přidat nebo více.
    • [Spark-24588] Spojení streamování by mělo vyžadovat HashClusteredPartitioning z podřízených objektů.
    • Opravili jsme problém, který by mohl způsobit, že mergeInto příkaz vyprodukuje nesprávné výsledky.
    • [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
    • [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
    1. června 2018
    • Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
    1. června 2018
    • Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
    • Vylepšené zpracování chyb v rozdílovém Lake.
    1. května 2018
    • Opravy chyb pro správu tajných kódů datacihly
    • Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
    • Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
    • Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
  • Duben 24, 2018

    • Upgradovat sadu Azure Data Lake Store SDK z 2.0.11 na 2.2.8, aby se zlepšila stabilita přístupu k Azure Data Lake Store.
    • Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když spark.databricks.io.hive.fastwriter.enabled je false .
    • Opravili jsme problém, který selhal při serializaci úlohy.
    • Vylepšená stabilita rozdílových Lake.
    1. března 2018
    • Zabránit zbytečným aktualizacím metadat při psaní do rozdílových Lake.
    • Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.

Databricks runtime 3,5 LTS (nepodporované )

Viz Databricks Runtime 3,5 LTS (Nepodporováno).

    1. listopadu 2019
    • [Spark-29743][SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
  • Říjen 8, 2019

    • Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
    1. září 2019
    • [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
    1. dubna 2019
    • [Spark-26665][Core] Opravte chybu, která může způsobit, že BlockTransferService. fetchBlockSync zareaguje trvale.
    1. února 2019
    • Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když spark.network.crypto.enabled je nastavené na true).
    1. ledna 2019
    • Opravili jsme problém, který může mít za následek, že parametr df.rdd.count() UDT vrátí nesprávnou odpověď pro určité případy.
    1. prosince 2018
    • Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech, spark.sql.files.ignoreCorruptFiles Když spark.sql.files.ignoreMissingFiles je povolen nebo příznak
    • Opravili jsme problém ovlivňující některé dotazy sjednocení.
    1. listopadu 2018
    • [Spark-25816] Pevné rozlišení atributů ve vnořených extraktorech.
    1. listopadu 2018
    • [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
    1. října 2018
    • Opravila se chyba ovlivňující Union operaci.
    1. září 2018
    • [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
    • Opraveno NotSerializableException ve zdroji dat Avro.
    1. září 2018
    • Omezení filtru by mělo správně zpracovat hodnotu null.
  • Srpna 28, 2018

    • Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
    • [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
  • Srpna 23, 2018

    • [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
    • Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
    • [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
    • Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
    1. června 2018
    • Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
    1. června 2018
    • Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
    1. června 2018
    • Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
    • Vylepšené zpracování chyb v rozdílovém Lake.
    1. května 2018
    • Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
    • Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
    • Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
    • Opravili chybu ovlivňující určité agregace v dotazech streamování.
  • Duben 24, 2018

    • Upgradovat sadu Azure Data Lake Store SDK z 2.0.11 na 2.2.8, aby se zlepšila stabilita přístupu k Azure Data Lake Store.
    • Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když spark.databricks.io.hive.fastwriter.enabled je false .
    • Opravili jsme problém, který selhal při serializaci úlohy.
    1. března 2018
    • Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.
  • Březen 01, 2018

    • Zvýšila efektivita zpracování datových proudů, jejichž zastavení může trvat dlouhou dobu.
    • Opravili jsme problém ovlivňující automatické dokončování v Pythonu.
    • Použili jsme opravy zabezpečení Ubuntu.
    • Opravili jsme problém ovlivňující některé dotazy pomocí funkcí Python UDF a Window.
    • Opravili jsme problém ovlivňující použití UDF v clusteru s povoleným řízením přístupu k tabulce.
    1. ledna 2018
    • Opravili jsme problém, který má vliv na manipulaci s tabulkami uloženými ve službě Azure Blob Storage.
    • Pevná agregace po dropDuplicates v prázdném dataframe

Databricks runtime 3,4 (nepodporované )

Viz Databricks Runtime 3,4 (Nepodporováno).

    1. června 2018
    • Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
    • Vylepšené zpracování chyb v rozdílovém Lake.
    1. května 2018
    • Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
    • Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
    • Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
  • Duben 24, 2018

    • Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když spark.databricks.io.hive.fastwriter.enabled je false .
    1. března 2018
    • Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.
  • DEC 13, 2017

    • Opravili jsme problém ovlivňující UDF v Scala.
    • Opravili jsme problém, který ovlivňuje použití dat přeskočení indexu u tabulek zdrojů dat uložených v cestách bez DBFS.
  • Dec 07, 2017

    • Vylepšení náhodné stability.