Aktualizace údržby modulu runtime Databricks
Tato stránka obsahuje seznam aktualizací pro údržbu vydaných pro Databricks Runtime vydání. Chcete-li přidat aktualizaci údržby do existujícího clusteru, restartujte cluster.
Poznámka
Tento článek obsahuje odkazy na seznam povolených termínů, termín, který Azure Databricks už nepoužívá. Po odebrání termínu ze softwaru ho odebereme z tohoto článku.
Podporované verze Databricks Runtime
Aktualizace údržby pro podporované verze Databricks Runtime:
- Databricks Runtime 8.0
- Databricks Runtime 7.6
- Databricks Runtime 7.5
- Databricks Runtime 7.4
- Databricks Runtime 7.3 LTS
- Databricks Runtime 6.4
- Databricks Runtime 5,5 LTS
- Databricks Light 2.4
Pro původní poznámky k verzi použijte odkaz pod podnadpis.
Databricks runtime 8,0
-
- března 2021
- [Spark-34681][SQL] Oprava chyby pro úplné vnější náhodné vyřazení při sestavování levé strany s neshodnou podmínkou
- [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
- [Spark-34613][SQL] zobrazení opravy nezachycuje konfiguraci nápovědy zakázání
-
- března 2021
- [Spark-34543][SQL] respektuje
spark.sql.caseSensitive
konfiguraci při překladu specifikace oddílu v v1SET LOCATION
- [Spark-34392][SQL] podporuje ZoneOffset + H:mm v DateTimeUtils. getZoneId
- [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
- [Spark-34436][SQL] DPP podpora jako libovolný výraz/vše
Databricks Runtime 7,6
-
- března 2021
- [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
- [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
-
- března 2021
- (Jenom Azure) Opravili jsme chybu automatického zavaděče, která může způsobit NullPointerException při použití Databricks Runtime 7,6 ke spuštění starého streamu automatického zavaděče vytvořeného v Databricks Runtime 7,2.
- [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
- [SC-71131] Neznámý list-Node SparkPlan se nezpracovává správně v SizeInBytesOnlyStatsSparkPlanVisitor.
- [ES-65064] Obnovení výstupního schématu
SHOW DATABASES
- [SC-70735] Rozdíl [8,0, 7,6] Opravená chyba výpočtu v logice automatického ladění velikosti souboru
- [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
- [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
- [SC-69534] Zakázat podporu typů znaků v cestě kódu mimo SQL
- [ES-66868] Vyhněte se NPE v DataFrameReader. Schema
- [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
- [SC-70392] Oprava chyby při čtení zavřeného streamu v automatickém zavaděči Azure
- [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je povolený server AOS
-
- února 2021
- Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
- Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
- Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci. - [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
- [Spark-34260][SQL] při vytváření dočasného zobrazení dvakrát vyřešte UnresolvedException.
Databricks Runtime 7,5
-
- března 2021
- [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
- [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
-
- března 2021
- (Jenom Azure) Opravili jsme chybu automatického zavaděče, která může způsobit NullPointerException při použití Databricks Runtime 7,5 ke spuštění starého streamu automatického zavaděče vytvořeného v Databricks Runtime 7,2.
- [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
- [SC-71131] Neznámý list-Node SparkPlan se nezpracovává správně v SizeInBytesOnlyStatsSparkPlanVisitor.
- [ES-65064] Obnovení výstupního schématu
SHOW DATABASES
- [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
- [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
- [SC-69534] Zakázat podporu typů znaků v cestě kódu mimo SQL
- [ES-66868] Vyhněte se NPE v DataFrameReader. Schema
- [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
- [SC-70392] Oprava chyby při čtení zavřeného streamu v automatickém zavaděči Azure
-
- února 2021
- Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
- Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
- Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci. - [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
- [Spark-34260][SQL] při vytváření dočasného zobrazení dvakrát vyřešte UnresolvedException.
-
- února 2021
- Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je
SELECT * FROM table LIMIT nrows
. Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci. - Zavedly se kontroly doby zápisu do klienta podregistru, aby nedocházelo k poškození metadat v metastore Hive pro rozdílové tabulky.
- Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Upgradujte sadu Azure Storage SDK z 2.3.8 na 2.3.9.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33480][SQL] aktualizuje chybovou zprávu pro kontrolu délky vložení tabulky char/varchar.
Databricks Runtime 7,4
-
- března 2021
- [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
- [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
-
- března 2021
- Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší více vylepšení stability.
- [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
- [ES-65064] Obnovení výstupního schématu
SHOW DATABASES
- [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
- [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
- [SC-70640] Opravit NPE, když odpověď EventGridClient nemá žádnou entitu
- [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je povolený server AOS
-
- února 2021
- Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
- Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
- Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci. - [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
- [Spark-33579][uživatelské rozhraní] oprava prázdné stránky vykonavatele za proxy serverem.
- [Spark-20044][uživatelské rozhraní] podporuje Spark UI za front-end reverzní proxy s použitím předpony cesty.
- [Spark-33277][PYSPARK] [SQL] pomocí ContextAwareIterator můžete přestat spotřebovávat po ukončení úlohy.
-
- února 2021
- Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je
SELECT * FROM table LIMIT nrows
. Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci. - Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
- [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
-
- prosince 2020
- [Spark-33587][jádro] ukončí vykonavatele na vnořených závažných chybách.
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- [Spark-33316][SQL] Podpora Avro schématu s možnou hodnotou null pro schéma Catalyst bez hodnoty null v zápisu Avro
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33404][SQL] [3.0] oprava špatných výsledků ve
date_trunc
výrazu - [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
- [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
- [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
- [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
- [Spark-33272][SQL] vyřadí mapování atributů v QueryPlan. transformUpWithNewOutput.
Databricks Runtime 7,3 LTS
Viz Databricks Runtime 7,3 LTS.
-
- března 2021
- [Spark-34768][SQL] respektuje výchozí velikost vstupní vyrovnávací paměti v Univocity
- [Spark-34534] Oprava pořadí blockIds, když se k načtení bloků použije FetchShuffleBlocks
- [Spark-33118][SQL] vytvořit dočasnou tabulku selhává s umístěním
-
- března 2021
- Aktualizovaný ovladač systému souborů Azure Blob pro Azure Data Lake Storage Gen2 je teď ve výchozím nastavení povolený. Přináší více vylepšení stability.
- [ES-69946] Oprava oddělovače cest ve Windows pro
databricks-connect get-jar-dir
- [ES-67926] ROZHRANÍ Oprava odkazu href DAG vizualizace Sparku
- [SC-52384] [DBCONNECT] Přidání podpory pro FlatMapCoGroupsInPandas v datacihlách Connect 7,3
- [ES-65064] Obnovení výstupního schématu
SHOW DATABASES
- [SC-70522] SQL Použít správný klíč sestavení dynamického vyřazení, pokud je k dispozici pomocný parametr rozsahu spojení
- [SC-35081] Zakázat kontrolu aktuálnosti pro soubory rozdílových tabulek v mezipaměti DBIO cache
- [SC-70220] SQL Negenerovat Rady náhodného čísla oddílu, když je server AOS povolený
-
- února 2021
- Upgradovali jste konektor Spark BigQuery na verzi v 0.18, který přináší různé opravy chyb a podporu pro Avro iterátory.
- Opravili jsme problém se správností, který způsobil, že Spark vrátí nesprávné výsledky, když se v souboru Parquet desetinná přesnost a škálování liší od schématu Spark.
- Opravili jsme problém se čtením Microsoft SQL Server tabulek, které obsahují prostorové datové typy, přidáním geometrie a typů geografických JDBC podporujících Spark SQL.
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci. - [Spark-34212] Opravili jsme problémy související s čtením desetinných dat ze souborů Parquet.
- [Spark-33579][uživatelské rozhraní] oprava prázdné stránky vykonavatele za proxy serverem.
- [Spark-20044][uživatelské rozhraní] podporuje Spark UI za front-end reverzní proxy s použitím předpony cesty.
- [Spark-33277][PYSPARK] [SQL] pomocí ContextAwareIterator můžete přestat spotřebovávat po ukončení úlohy.
-
- února 2021
- Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je
SELECT * FROM table LIMIT nrows
. Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci. - Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
- [Spark-33592][ml] [Python] v estimatorParamMaps se můžou po uložení a opětovném načtení ztratit parametry validátoru Pyspark ml.
- [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
-
- prosince 2020
- [Spark-33587][jádro] ukončí vykonavatele na vnořených závažných chybách.
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- [Spark-33316][SQL] Podpora Avro schématu s možnou hodnotou null pro schéma Catalyst bez hodnoty null v zápisu Avro
- Úlohy Sparku spuštěné pomocí připojení datacihly se můžou
Executor$TaskRunner.$anonfun$copySessionState
v trasování zásobníku prováděče zablokovat na neomezenou dobu. - Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33404][SQL] [3.0] oprava špatných výsledků ve
date_trunc
výrazu - [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
- [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
- [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
- [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
-
- listopadu 2020
- Opravte ABFS a WASB uzamykání s ohledem na
UserGroupInformation.getCurrentUser()
. - Opravte chybu nekonečné smyčky, když čtecí modul Avro přečte MAGIC bajty.
- Přidejte podporu pro oprávnění k používání.
- Vylepšení výkonu pro kontrolu oprávnění v řízení přístupu k tabulce.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- Můžete číst a zapisovat z DBFS pomocí připojení zapékací jednotky na/dBFS/, pokud je povolený cluster s vysokou souběžnou platností přihlašovacích údajů. Běžná připojení jsou podporovaná, ale připojení, která vyžadují průchozí přihlašovací údaje, se ještě nepodporují.
- [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
- [Spark-32585][SQL] Podpora výčtu Scala v ScalaReflection
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
Září 29, 2020
- [Spark-32718][SQL] odebrat nepotřebná klíčová slova pro jednotky intervalu
- [Spark-32635][SQL] oprava šíření Foldable
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte konfigurační hodnotu takLong.MAX_VALUE
, aby se přeskočila konsolidace FrameBuffers síťoviny, což zabráníjava.lang.IndexOutOfBoundsException
v rohových případech.
Databricks runtime 6,4
Viz Databricks Runtime 6,4 (Nepodporováno).
-
- března 2021
- Port HADOOP-17215 do ovladače systému souborů objektů BLOB v Azure (podpora pro podmíněné přepsání).
- [ES-69946] Oprava oddělovače cest ve Windows pro
databricks-connect get-jar-dir
- [SC-70754] Přidání podpory pro metastore Hive verze 2.3.5, 2.3.6 a 2.3.7
- [SC-70681] Šipka "totalResultsCollected" nesprávně nahlásila po zalití
-
- února 2021
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
-
- února 2021
- Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je
SELECT * FROM table LIMIT nrows
. Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci. - Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Běhový procesor 6,4 ML] Dříve jsme nainstalovali nesprávnou verzi (2.7.8-1 + CUDA 11.1) NCCL. Tato verze opravuje tuto verzi na 2.4.8-1 + CUDA 10.0, která je kompatibilní s CUDA 10,0.
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
- [Spark-32635][SQL] oprava šíření Foldable
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
-
- září 2020
- Opravili jsme předchozí omezení, kde průchozí cluster na úrovni Standard by stále omezil implementaci systému souborů používané uživatelem. Nyní by uživatelé měli přístup k místním systémům souborů bez omezení.
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
-
- srpna 2020
- Pevné rozlišení nejednoznačného atributu při samostatném sloučení
-
- srpna 2020
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
Srpna 3, 2020
- V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
- Aktualizace zabezpečení operačního systému.
-
- července 2020
- Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
Duben 21, 2020
- [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
Duben 7, 2020
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
-
- března 2020
- Optimalizované automatické škálování se teď ve výchozím nastavení používá u všech clusterů v Azure Databricks Premium plánu.
- Konektor Snowflake (
spark-snowflake_2.11
) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9.snowflake-jdbc
je aktualizováno na verzi 3.12.0.
Databricks runtime 5,5 LTS
Viz Databricks Runtime 5,5 LTS.
-
- března 2021
- Port HADOOP-17215 do ovladače systému souborů objektů BLOB v Azure (podpora pro podmíněné přepsání).
-
- února 2021
- Byla představena nová konfigurace
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Tato konfigurace řídí vestavěnou inicializaci podregistru. Pokud je nastaveno na hodnotu true, Azure Databricks znovu načte všechny funkce ze všech databází, do kterých mají uživateléFunctionRegistry
. Toto je výchozí chování v metastore podregistru. Pokud je nastavena hodnota false, Azure Databricks zakáže tento proces pro optimalizaci.
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- Oprava pro [HADOOP-17130].
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
- [Spark-32635][SQL] oprava šíření Foldable
-
- října 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
-
- září 2020
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
-
- srpna 2020
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
Srpna 3, 2020
- Aktualizace zabezpečení operačního systému
-
- července 2020
- Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
Duben 21, 2020
- [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
Duben 7, 2020
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
-
- března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9.snowflake-jdbc
je aktualizováno na verzi 3.12.0.
-
- března 2020
- Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení
spark.databricks.driver.disableScalaOutput
Konfigurace Sparku natrue
. Ve výchozím nastavení je hodnota příznakufalse
. Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
-
- února 2020
- [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
- Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
-
- ledna 2020
- [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
-
- ledna 2020
- Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
-
- listopadu 2019
- [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
- Verze R byla neúmyslně upgradována na 3.6.1 z 3.6.0. Převedli jsme to zpátky na 3.6.0.
-
- listopadu 2019
- Upgradovaná verze Java z 1.8.0 _212 na 1.8.0 _222.
Říjen 23, 2019
- [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
Říjen 8, 2019
- Změny na straně serveru, které umožňují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje Simba ovladač odbc Apache Spark verze 2.6.10).
- Opravili jsme problém, který ovlivňuje použití
Optimize
příkazu s clustery s povoleným seznamem ACL tabulky. - Opravili jsme problém, kdy
pyspark.ml
by knihovny selhaly kvůli chybě systému souborů UDF v seznamu ACL Scala a u clusterů s povoleným průchodem přihlašovacích údajů. - Allowlisted SerDe a SerDeUtil metody pro průchozí přihlašovací údaje.
- Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
-
- září 2019
- Zlepšená stabilita zapisovače Parquet.
- Opravili jsme problém, že se Thrift dotaz zrušil předtím, než se spustí, může se zablokovat ve stavu spuštění.
-
- září 2019
- Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
- [Spark-27992][Spark-28881]povolí Pythonu připojit se k vláknu připojení k šíření chyb.
- Opravili jsme chybu ovlivňující určité globální agregační dotazy.
- Vylepšené redigování přihlašovacích údajů.
- [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
- [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
- [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
-
- srpna 2019
- [Spark-20906][SQL] povolení uživatelsky definovaného schématu v rozhraní API to_avro v registru schématu
- [Spark-27838][SQL] podpora, kterou zadal uživatel, který nepovoluje hodnotu null schématu Avro pro prázdné schéma Catalyst bez jakéhokoli záznamu s hodnotou null
- Vylepšení na cestách na rozdíl od času Lake Lake
- Vyřešil se problém ovlivňující určitý
transform
výraz. - Podporuje proměnné vysílání, když je povolená izolace procesu.
VIII 13. srpna 2019
- Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
- [Spark-28260] Přidat UZAVŘENý stav do ExecutionState
- [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
-
- července 2019
- [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
- [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
- [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
- [Spark-28355][Core] [Python] použití Spark conf pro prahovou hodnotu, při které je systém souborů UDF komprimováný všesměrovým vysíláním
Datacihly – světlá 2,4
Viz datacihly Light 2,4.
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
[Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
-
- října 2020
- Aktualizace zabezpečení operačního systému.
Nepodporované verze Databricks Runtime
Aktualizace údržby pro nepodporované verze Databricks Runtime:
- Databricks Runtime 7,2 (nepodporované)
- Databricks Runtime 7,1 (nepodporované)
- Databricks Runtime 7,0 (nepodporované)
- Databricks Runtime 6,6 (nepodporované)
- Databricks Runtime 6,5 (nepodporované)
- Databricks Runtime 6,3 (nepodporované)
- Databricks Runtime 6,2 (nepodporované)
- Databricks Runtime 6,1 (nepodporované)
- Databricks Runtime 6,0 (nepodporované)
- Databricks Runtime 5,4 ML (nepodporované)
- Databricks Runtime 5,4 (nepodporované)
- Databricks Runtime 5,3 (nepodporované)
- Databricks Runtime 5,2 (nepodporované)
- Databricks Runtime 5,1 (nepodporované)
- Databricks Runtime 5,0 (nepodporované)
- Databricks Runtime 4,3 (nepodporované)
- Databricks Runtime 4,2 (nepodporované)
- Databricks Runtime 4,1 ML (nepodporované)
- Databricks Runtime 4,1 (nepodporované)
- Databricks Runtime 4,0 (nepodporované)
- Databricks Runtime 3,5 LTS (nepodporované)
- Databricks Runtime 3,4 (nepodporované)
Pro původní poznámky k verzi použijte odkaz pod podnadpis.
Databricks Runtime 7,2 (nepodporované )
Viz Databricks Runtime 7,2 (Nepodporováno).
-
- února 2021
- Opravili jsme regresi, která znemožňuje přírůstkové provedení dotazu, který nastavuje globální limit, jako je
SELECT * FROM table LIMIT nrows
. Regrese byla zjištěna uživateli, kteří spouštějí dotazy prostřednictvím rozhraní ODBC/JDBC s povolenou nastavením šipky pro serializaci. - Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
- [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- [Spark-33404][SQL] oprava špatných výsledků ve
date_trunc
výrazu - [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
- [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
Září 29, 2020
- [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
- [Spark-32635][SQL] oprava šíření Foldable
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte konfigurační hodnotu takLong.MAX_VALUE
, aby se přeskočila konsolidace FrameBuffers síťoviny, což zabráníjava.lang.IndexOutOfBoundsException
v rohových případech.
-
- září 2020
- [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
- [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
- [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
Databricks Runtime 7,1 (nepodporované )
Viz Databricks Runtime 7,1 (Nepodporováno).
-
- února 2021
- Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
- [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- Úlohy Sparku spuštěné pomocí připojení datacihly se můžou
Executor$TaskRunner.$anonfun$copySessionState
v trasování zásobníku prováděče zablokovat na neomezenou dobu. - Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33404][SQL] [3.0] oprava špatných výsledků ve
date_trunc
výrazu - [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
- [Spark-33183][SQL] [hotfix] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Spark-33371][Python] [3.0] aktualizovat Setup.py a testy pro Python 3,9
- [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
- [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
Září 29, 2020
- [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
- [Spark-32635][SQL] oprava šíření Foldable
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte konfigurační hodnotu takLong.MAX_VALUE
, aby se přeskočila konsolidace FrameBuffers síťoviny, což zabráníjava.lang.IndexOutOfBoundsException
v rohových případech.
-
- září 2020
- [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
- [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
- [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
-
- srpna 2020
- [Spark-32159][SQL] oprava integrace mezi
Aggregator[Array[_], _, _]
aUnresolvedMapObjects
- [Spark-32559][SQL] opravit logiku střihu v
UTF8String.toInt/toLong
, která nezpracovává správně znaky jiné než ASCII - [Spark-32543][R] odebrat
arrow::as_tibble
použití v Sparku - [Spark-32091][Core] ignorovat při odebírání bloků u ztraceného vykonavatele chybu timeout
- Opravili jsme problém ovlivňující konektor Azure synapse s přihlašovacími údaji MSI.
- Pevné rozlišení nejednoznačného atributu při samostatném sloučení
-
- srpna 2020
- [Spark-32594][SQL] opravit serializaci dat vložených do tabulek podregistru
- [Spark-32237][SQL] vyřešit pomocný parametr v CTE
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- [Spark-32467][uživatelské rozhraní] Vyhněte se kódování adresy URL dvakrát při přesměrování https
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-32280][Spark-32372][SQL] ResolveReferences. dedupRight by měl přepsat pouze atributy pro uzly předchůdce plánu konfliktů.
- [Spark-32234][SQL] příkazy SQL Sparku při výběru tabulek ORC selžou.
Srpna 3, 2020
- V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
Databricks Runtime 7,0 (nepodporované )
Viz Databricks Runtime 7,0 (Nepodporováno).
-
- února 2021
- Opravili jsme regresi, která způsobila, že se DBFS pojistka spustí, když konfigurace proměnných prostředí clusteru obsahují neplatnou syntaxi bash.
-
- ledna 2021
- Opravili jsme regresi ve vydání od 12. ledna 2021, která může způsobit nesprávný AnalysisException a vyslovit, že sloupec je nejednoznačný ve spojení s sebou samým. K této regresi dochází, když uživatel připojí datový rámec s odvozeným datovým rámcem (který se nazývá vlastní spojení) s následujícími podmínkami:
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
df.join(df.select($"col" as "new_col"), cond)
. - Odvozený datový rámec vylučuje některé sloupce prostřednictvím SELECT, groupBy nebo Window.
- Podmínka spojení nebo následující transformace po připojeném dataframe odkazuje na Neběžné sloupce. Například
df.join(df.drop("a"), df("a") === 1)
.
- Tyto dva datovými rámečky mají společné sloupce, ale výstup funkce Join pro sebe samo nemá společné sloupce. Například
-
- ledna 2021
- Aktualizace zabezpečení operačního systému.
- [Spark-33593][SQL] vektorová čtečka získala nesprávná data s hodnotou binárního oddílu.
- [Spark-33677][SQL] Přeskočit pravidlo LikeSimplification, pokud vzor obsahuje libovolný escapeChar
- [Spark-33071][Spark-33536] [SQL] Vyhněte se změně dataset_id LogicalPlan v Join () pro not break DetectAmbiguousSelfJoin
-
- prosince 2020
- [Spark-27421][SQL] filtr oprav pro sloupec int a třídu hodnot Java. lang. String při vyřazování sloupce oddílu
- [Spark-33404][SQL] oprava špatných výsledků ve
date_trunc
výrazu - [Spark-33339][Python] aplikace Pyspark přestane reagovat kvůli chybě, která není výjimkou.
- [Spark-33183][SQL] opravit pravidlo optimalizace EliminateSorts a přidat fyzické pravidlo pro odebrání redundantních řazení
- [Spark-33391][SQL] Element_at s CreateArray bez ohledu na index založený na jednom indexu.
- Aktualizace zabezpečení operačního systému.
-
- prosince 2020
- [Spark-33306][SQL] časové pásmo je potřeba, když je datum přetypování na řetězec.
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] použít utils. getnázev k tomu, abyste se vyhnuli používání poškozené třídy v prvku TreeNode
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
Září 29, 2020
- [Spark-28863][SQL] [WARMFIX] zaveďte AlreadyOptimized, aby nedocházelo k reanalýzám V1FallbackWriters.
- [Spark-32635][SQL] oprava šíření Foldable
- Přidejte novou konfiguraci
spark.shuffle.io.decoder.consolidateThreshold
. Nastavte konfigurační hodnotu takLong.MAX_VALUE
, aby se přeskočila konsolidace FrameBuffers síťoviny, což zabráníjava.lang.IndexOutOfBoundsException
v rohových případech.
-
- září 2020
- [Spark-32764][SQL]-0,0 by se mělo rovnat 0,0
- [Spark-32753][SQL] při transformaci plánů kopíruje jenom značky na uzel bez značek.
- [Spark-32659][SQL] Oprava problému s daty vloženého vyřazení dynamického oddílu na jiný typ než Atomic
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000.
-
- srpna 2020
- [Spark-32159][SQL] oprava integrace mezi
Aggregator[Array[_], _, _]
aUnresolvedMapObjects
- [Spark-32559][SQL] opravit logiku střihu v
UTF8String.toInt/toLong
, která nezpracovává správně znaky jiné než ASCII - [Spark-32543][R] odebrat
arrow::as_tibble
použití v Sparku - [Spark-32091][Core] ignorovat při odebírání bloků u ztraceného vykonavatele chybu timeout
- Opravili jsme problém ovlivňující konektor Azure synapse s přihlašovacími údaji MSI.
- Pevné rozlišení nejednoznačného atributu při samostatném sloučení
-
- srpna 2020
- [Spark-32594][SQL] opravit serializaci dat vložených do tabulek podregistru
- [Spark-32237][SQL] vyřešit pomocný parametr v CTE
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- [Spark-32467][uživatelské rozhraní] Vyhněte se kódování adresy URL dvakrát při přesměrování https
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-32280][Spark-32372][SQL] ResolveReferences. dedupRight by měl přepsat pouze atributy pro uzly předchůdce plánu konfliktů.
- [Spark-32234][SQL] příkazy SQL Sparku při výběru tabulek ORC selžou.
- V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
Databricks runtime 6,6 (nepodporované )
Viz Databricks Runtime 6,6 (Nepodporováno).
-
- prosince 2020
- [Spark-33260][SQL] oprava špatných výsledků z SortExec, když je zadán datový proud.
- [Spark-32635][SQL] oprava šíření Foldable
-
- listopadu 2020
- Upgradovaná verze Java z 1.8.0 _252 na 1.8.0 _265.
- Opravit ABFS a WASB uzamykání s ohledem na UserGroupInformation. getCurrentUser ()
- Při čtení MAGIC bajtů opravit chybu nekonečné smyčky Avro Reader.
-
- října 2020
- Aktualizace zabezpečení operačního systému.
- [Spark-32999][SQL] [2.4] použít utils. getnázev, aby se zabránilo nestisknutí poškozené třídy v prvku TreeNode
- Pevný výpis adresářů v připojení zapékací jednotky, které obsahují názvy souborů s neplatnými znaky XML
- Připojení zapékací jednotky už nepoužívá ListMultipartUploads.
-
- září 2020
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
-
- srpna 2020
- Pevné rozlišení nejednoznačného atributu při samostatném sloučení
-
- srpna 2020
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
- [Spark-31967][uživatelské rozhraní] downgrade na vis.js 4.21.0 k opravě času načítání uživatelského rozhraní úloh regrese
Srpna 3, 2020
- V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
- Aktualizace zabezpečení operačního systému.
Databricks runtime 6,5 (nepodporované )
Viz Databricks Runtime 6,5 (Nepodporováno).
-
- září 2020
- Opravili jsme předchozí omezení, kde průchozí cluster na úrovni Standard by stále omezil implementaci systému souborů používané uživatelem. Nyní by uživatelé měli přístup k místním systémům souborů bez omezení.
- Aktualizace zabezpečení operačního systému.
-
- září 2020
- Pro Azure synapse Analytics byl vytvořen nový parametr
maxbinlength
. Tento parametr slouží k řízení délky sloupců BinaryType sloupců a je přeložen jakoVARBINARY(maxbinlength)
. Dá se nastavit pomocí.option("maxbinlength", n)
, kde 0 < n <= 8000. - Aktualizace sady Azure Storage SDK na 8.6.4 a povolení protokolu TCP keep alive pro připojení vytvořená ovladačem WASB
-
- srpna 2020
- Pevné rozlišení nejednoznačného atributu při samostatném sloučení
-
- srpna 2020
- [Spark-32431][SQL] kontrolovat duplicitní vnořené sloupce ve čtení z vestavěných zdrojů dat
- V konektoru AQS se při použití triggeru opravila podmínka časování.
-
- srpna 2020
- [Spark-28676][jádro] zamezení nadměrnému protokolování z ContextCleaner
- Srpna 3, 2020
- V clusteru s podporou průchozího rozhraní teď můžete použít funkci LDA Transforming.
- Aktualizace zabezpečení operačního systému.
-
- července 2020
- Upgradovaná verze Java z 1.8.0 _242 na 1.8.0 _252.
- Duben 21, 2020
- [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
Databricks runtime 6,3 (nepodporované )
Viz Databricks Runtime 6,3 (Nepodporováno).
-
- července 2020
- Upgradovaná verze Java z 1.8.0 _232 na 1.8.0 _252.
- Duben 21, 2020
- [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
- Duben 7, 2020
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
-
- března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9.snowflake-jdbc
je aktualizováno na verzi 3.12.0.
-
- února 2020
- Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
-
- února 2020
- [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
- [Spark-30447][SQL] problém s hodnotou null šíření konstanty
- [Spark-28152][SQL] přidání starší verze služby conf pro staré MsSqlServerDialect číselné mapování
- Allowlisted funkci overwrite tak, aby MLModels rozšiřuje MLWriter funkce.
Databricks runtime 6,2 (nepodporované )
Viz Databricks Runtime 6,2 (Nepodporováno).
- Duben 21, 2020
- [Spark-31312][SQL] instance třídy mezipaměti pro instanci UDF v HiveFunctionWrapper
- Duben 7, 2020
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
-
- března 2020
- Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení
spark.databricks.driver.disableScalaOutput
Konfigurace Sparku natrue
. Ve výchozím nastavení je hodnota příznakufalse
. Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
-
- března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9.snowflake-jdbc
je aktualizováno na verzi 3.12.0.
-
- února 2020
- [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
- Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
-
- ledna 2020
- Allowlisted ML zapisovače modelů – funkce přepisu pro clustery s povoleným průchodem přihlašovacích údajů, aby model Save mohl používat režim přepisu pro průchozí clustery přihlašovacích údajů.
- [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
- [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
-
- ledna 2020
- Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
- Od 10. prosince 2019
- [Spark-29904][SQL] analyzuje časová razítka s mikropřesností s použitím datových zdrojů JSON/CSV s mikrosekundou.
Databricks runtime 6,1 (nepodporované )
Viz Databricks Runtime 6,1 (Nepodporováno).
- Duben 7, 2020
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
ARROW_PRE_0_15_IPC_FORMAT=1
), která umožní podporu těchto verzí PyArrow. Přečtěte si pokyny v tématu [Spark-29367].
- Abychom vyřešili problém s PANDAS UDF nepracuje s PyArrow 0.15.0 a novějšími, Přidali jsme proměnnou prostředí (
-
- března 2020
- Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení
spark.databricks.driver.disableScalaOutput
Konfigurace Sparku natrue
. Ve výchozím nastavení je hodnota příznakufalse
. Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
-
- března 2020
- Konektor Snowflake (
spark-snowflake_2.11
) obsažený v Databricks runtime je aktualizovaný na verzi 2.5.9.snowflake-jdbc
je aktualizováno na verzi 3.12.0.
-
- února 2020
- [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
- Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
-
- ledna 2020
- [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
- [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
-
- ledna 2020
- Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
-
- listopadu 2019
- [Spark-29743][SQL] Ukázka by měla nastavit needCopyResult na hodnotu true, pokud má jeho podřízená needCopyResult hodnotu true.
- Tajné kódy, na které se odkazuje z vlastností konfigurace Sparku a proměnných prostředí v Public Preview. Podívejte se na cesty ke tajným klíčům ve vlastnostech konfigurace Sparku a proměnných prostředí.
-
- listopadu 2019
- Opravili jsme chybu v DBFS pojistky ke zpracování přípojných bodů, které mají
//
v cestě. - [Spark-29081] Nahraďte volání SerializationUtils. Clone u vlastností pomocí rychlejší implementace.
- [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
- (6,1 ml) MKL knihovny verze 2019,4 byla neúmyslně nainstalována. Převedli jsme ji na MKL verze 2019,3, aby odpovídala Anaconda distribuci 2019,03.
Databricks runtime 6,0 (nepodporované )
Viz Databricks Runtime 6,0 (Nepodporováno).
-
- března 2020
- Výstup úlohy, jako je například výstup protokolu vydávaný do stdout, podléhá omezení velikosti 20MB. Pokud má celkový výstup větší velikost, bude spuštění zrušeno a bude označeno jako neúspěšné. Chcete-li se tomuto limitu vyhnout, můžete zabránit tomu, aby se z ovladače vrátilo nastavení
spark.databricks.driver.disableScalaOutput
Konfigurace Sparku natrue
. Ve výchozím nastavení je hodnota příznakufalse
. Příznak ovládá výstup buňky pro úlohy JAR Scala a poznámkové bloky Scala. Pokud je příznak povolený, Spark nevrátí do klienta výsledky provádění úlohy. Příznak nemá vliv na data, která jsou zapsána v souborech protokolu clusteru. Nastavení tohoto příznaku se doporučuje jenom pro automatizované clustery pro úlohy JAR, protože by se zakázaly výsledky poznámkového bloku.
-
- února 2020
- Průchod přihlašovacích údajů s ADLS Gen2 má snížení výkonu z důvodu nesprávného zpracování thread local, když je povolené předběžné načítání klienta ADLS. Tato verze zakazuje ADLS Gen2 předběžného načítání, pokud je povoleno průchozí přihlašovací údaje, dokud máme správnou opravu.
-
- února 2020
- [Spark-24783][SQL] Spark. SQL. renáhodný. partitions = 0 by měla vyvolat výjimku.
-
- ledna 2020
- [Spark-30447][SQL] problém s hodnotou null šíření konstanty.
- [Spark-28152][SQL] přidejte starší verzi služby conf pro staré mapování MsSqlServerDialect.
-
- ledna 2020
- Upgradovaná verze Java z 1.8.0 _222 na 1.8.0 _232.
-
- listopadu 2019
- [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
-
- listopadu 2019
dbutils.tensorboard.start()
nyní podporuje TensorBoard 2,0 (Pokud je nainstalován ručně).- Opravili jsme chybu v DBFS pojistky ke zpracování přípojných bodů, které mají
//
v cestě. - [Spark-29081] Nahraďte volání SerializationUtils. Clone u vlastností pomocí rychlejší implementace.
- Říjen 23, 2019
- [Spark-29244][jádro] Zabraňte opětovnému uvolnění volné stránky v BytesToBytesMap
- Říjen 8, 2019
- Změny na straně serveru, které umožňují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje Simba ovladač odbc Apache Spark verze 2.6.10).
- Opravili jsme problém, který ovlivňuje použití
Optimize
příkazu s clustery s povoleným seznamem ACL tabulky. - Opravili jsme problém, kdy
pyspark.ml
by knihovny selhaly kvůli chybě systému souborů UDF v seznamu ACL Scala a u clusterů s povoleným průchodem přihlašovacích údajů. - Allowlisted SerDe/SerDeUtil metody pro průchozí přihlašovací údaje.
- Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
- Opravili jsme problém, kdy přihlašovací údaje uživatele nebyly předány úlohám vytvořeným pomocí
dbutils.notebook.run()
.
Databricks runtime 5,4 ml (nepodporované )
Machine Learning (nepodporované)najdete v tématu Databricks runtime 5,4.
-
- června 2019
- Vylepšené zpracování MLflow aktivních běhů v integraci Hyperopt
- Vylepšené zprávy v Hyperopt
- Aktualizovaný balíček
markdown
z 3,1 na 3.1.1
Databricks runtime 5,4 (nepodporované )
Viz Databricks Runtime 5,4 (Nepodporováno).
-
- listopadu 2019
- [Spark-29743] [SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
- Říjen 8, 2019
- Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
- Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
-
- září 2019
- Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
- Opravili jsme chybu ovlivňující určité globální agregační dotazy.
- [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
- [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
- [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
- [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
-
- srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- VIII 13. srpna 2019
- Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
- [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
-
- července 2019
- [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
- [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
- [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
-
- července 2019
- Upgradovaná přichycení – Java z 1.1.7.1 do 1.1.7.3.
-
- června 2019
- Vylepšené zpracování MLflow aktivních běhů v integraci MLlib
- Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
- Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
- Opravila se chyba ovlivňující dotazy na rozdílové metadata
Databricks runtime 5,3 (nepodporované )
Viz Databricks Runtime 5,3 (Nepodporováno).
-
- listopadu 2019
- [Spark-29743][SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
- Říjen 8, 2019
- Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
- Opravená NullPointerException při kontrole kódu chyby v klientovi WASB.
-
- září 2019
- Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
- Opravili jsme chybu ovlivňující určité globální agregační dotazy.
- [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
- [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
- [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
- [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
-
- srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- VIII 13. srpna 2019
- Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
- [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
-
- července 2019
- [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
- [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
- [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
-
- června 2019
- Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
- Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
- Opravila se chyba ovlivňující dotazy na rozdílové metadata
-
- května 2019
- Vylepšení stability rozdílu
- Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
- Přidání obnovení do neúspěšné instalace knihovny
-
- května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
- Opravila se chyba ovlivňující seznamy ACL tabulky.
- Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
- Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
- Zajistěte, aby se mezipaměť DBIO při povolování seznamů ACL tabulky neaktivovala.
- [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
- [SPARK-27446] [R] Pokud je dostupná, použijte existující Spark conf.
- [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
- [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
- [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
Databricks runtime 5,2 (nepodporované )
Viz Databricks Runtime 5,2 (Nepodporováno).
-
- září 2019
- Přidání iterátoru bezpečného pro přístup z více vláken do BytesToBytesMap
- Opravili jsme chybu ovlivňující určité globální agregační dotazy.
- [Spark-27330][SS] podpora přerušení úlohy ve zapisovači foreach
- [Spark-28642] Skrýt přihlašovací údaje v zobrazení CREATE TABLE
- [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
- [Spark-28699][jádro] oprava rohového případu pro přerušení neurčité fáze
-
- srpna 2019
- Opravili jsme problém ovlivňující určité
transform
výrazy.
- VIII 13. srpna 2019
- Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
- [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
-
- července 2019
- [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
- [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
- [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
-
- července 2019
- Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
-
- června 2019
- Vylepšená zpráva Poradce pro datacihly související s používáním rozdílové mezipaměti
- Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
- Opravila se chyba ovlivňující dotazy na rozdílové metadata
-
- května 2019
- Přidání obnovení do neúspěšné instalace knihovny
-
- května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
- Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
- Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
- Zajistěte, aby se mezipaměť DBIO při povolování seznamů ACL tabulky neaktivovala.
- [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
- [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
- [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
- [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
-
- března 2019
- Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
- [Spark-26665][Core] Opravte chybu, kterou BlockTransferService. fetchBlockSync může zablokovat trvale.
- [Spark-27134][SQL] funkce array_distinct nefunguje správně se sloupci obsahujícími pole Array.
- [Spark-24669][SQL] zrušení platnosti tabulek v případě kaskádové databáze.
- [Spark-26572][SQL] opravit agregované vyhodnocení výsledků CodeGen
- Opravila se chyba ovlivňující určité PythonUDFs.
-
- února 2019
- Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
- [Spark-26887][Python] vytvořit datum a čas přímo místo vytvoření datetime64 jako mezilehlých dat.
- Opravili jsme chybu ovlivňující JDBC/ODBC server.
- Opravila se chyba ovlivňující PySpark.
- Při sestavování HadoopRDD vylučte skryté soubory.
- Opravili jsme chybu v rozdílu, která způsobila problémy s serializací.
-
- února 2019
- Opravili jsme problém, který se týká rozdílu pomocí ADLS Gen2 přípojných bodů Azure.
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
- [Spark-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
- Zdroje dat CSV/JSON by se měly vyhnout cestám s expanzí kódu při odvozování schématu.
- Pevné odvození omezení se vychází z operátoru Window.
- Opravili jsme problém ovlivňující instalaci knihoven vajec s clustery, které mají povolený seznam ACL tabulky.
Databricks runtime 5,1 (nepodporované )
Viz Databricks Runtime 5,1 (Nepodporováno).
- VIII 13. srpna 2019
- Zdroj rozdílového streamování by měl kontrolovat nejnovější protokol tabulky.
- [Spark-28489][SS] Oprava chyby, kterou KafkaOffsetRangeCalculator. getrozsahy můžou odtahovat posuny
-
- července 2019
- [Spark-28015][SQL] check stringToDate () spotřebovává celý vstup pro formáty yyyy a rrrr-[m] m.
- [Spark-28308][jádro] před analýzou by se měla část CalendarInterval druhé strany doplňují.
- [Spark-27485] EnsureRequirements. Reorder by měla pracovat s duplicitními výrazy bez problémů.
-
- července 2019
- Tolerovat IOExceptions při čtení rozdílového LAST_CHECKPOINT souboru
-
- června 2019
- Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
- Opravila se chyba ovlivňující dotazy na rozdílové metadata
-
- května 2019
- Přidání obnovení do neúspěšné instalace knihovny
-
- května 2019
- Port HADOOP-15778 (ABFS: Oprava omezování na straně klienta pro čtení) do konektoru Azure Data Lake Storage Gen2
- Port HADOOP-16040 (ABFS: Oprava chyby pro konfiguraci tolerateOobAppends) pro Azure Data Lake Storage Gen2 konektor
- Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
- Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
- [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
- [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
- [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
- [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
-
- března 2019
- Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
- Opravila se chyba ovlivňující určité PythonUDFs.
-
- února 2019
- Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
- Opravili jsme chybu ovlivňující JDBC/ODBC server.
- Při sestavování HadoopRDD vylučte skryté soubory.
-
- února 2019
- Opravili jsme problém ovlivňující instalaci knihoven vajec s clustery, které mají povolený seznam ACL tabulky.
- Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
- [Spark-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
- Pevné odvození omezení se vychází z operátoru Window.
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili jsme problém, který může mít za následek, že parametr
df.rdd.count()
UDT vrátí nesprávnou odpověď pro určité případy. - Opravili jsme problém ovlivňující instalaci kormidelních.
- [Spark-26267] Zkuste to znovu, když se detekuje nesprávná posunutí z Kafka.
- Opravili jsme chybu, která má vliv na více zdrojů datových proudů souborů v dotazu streamování.
- Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
-
- ledna 2019
- Opraven problém, který
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
způsobuje chybu - [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
- [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
- Vylepšení stability pro rozdílový Lake.
- Je povolený rozdílový Lake.
- Opravili jsme problém, který způsobil neúspěšnou Azure Data Lake Storage Gen2 přístup, když je pro Azure Data Lake Storage Gen1 povolené průchozí přihlašovací údaje Azure AD.
- Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
Databricks runtime 5,0 (nepodporované )
Viz Databricks Runtime 5,0 (Nepodporováno).
-
- června 2019
- Opravili jsme chybu, která má vliv na použití vyššího pořadí funkcí.
-
- května 2019
- Opravili konflikt časování při načítání souboru kontrolního součtu rozdílových protokolů
- Pevná logika zjišťování konfliktů Delta pro neidentifikaci operace "vložit + přepsat" jako čistě "append"
- [SPARK-27494] SS V Kafka source v2 nefungují klíče a hodnoty null.
- [SPARK-27454] [SPARK-27454] L SQL Při výskytu některých neplatných imagí se nezdaří zdroj dat Sparku.
- [SPARK-27160] SQL Při vytváření filtrů ORC opravovat DecimalType
- [SPARK-27338] Core Oprava zablokování mezi UnsafeExternalSorter a TaskMemoryManager
-
- března 2019
- Vyhnout se vkládání posunů závislých na platformě doslova v celém vygenerovaném kódu
- Opravila se chyba ovlivňující určité PythonUDFs.
-
- března 2019
- Dotaz [Spark-26864][SQL] může vrátit nesprávný výsledek, pokud se jako levá podmínka spojení používá Python UDF.
-
- února 2019
- Opravili jsme chybu ovlivňující JDBC/ODBC server.
- Při sestavování HadoopRDD vylučte skryté soubory.
-
- února 2019
- Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
- [Spark-26706][SQL] Oprava
illegalNumericPrecedence
pro ByteType. - [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
- Pevné odvození omezení se vychází z operátoru Window.
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili jsme problém, který může mít za následek, že parametr
df.rdd.count()
UDT vrátí nesprávnou odpověď pro určité případy. - [Spark-26267] Zkuste to znovu, když se detekuje nesprávná posunutí z Kafka.
- Opravili jsme chybu, která má vliv na více zdrojů datových proudů souborů v dotazu streamování.
- Opravili StackOverflowError při vložení pomocného parametru spojení pro relaci v mezipaměti.
- Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
-
- ledna 2019
- Byl opraven problém, který způsobil chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
- [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
- Vylepšení stability pro rozdílový Lake.
- Je povolený rozdílový Lake.
- Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
-
- prosince 2018
- [Spark-26293] Výjimka při přetypování při poddotazu Python UDF
- Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
- Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
-
- prosince 2018
- Opravili jsme problém, který způsobil nesprávný výsledek dotazu při použití orderBy následovaných operátorem Group by, a to jako úvodní část klíče pro řazení podle klíče.
- Upgradován konektor Snowflake pro Spark z 2.4.9.2 – spark_2.4_pre_release na 2.4.10.
- Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech,
spark.sql.files.ignoreCorruptFiles
Kdyžspark.sql.files.ignoreMissingFiles
je povolen nebo příznak - Opravili jsme problém ovlivňující některé dotazy sjednocení.
- Opravili jsme chybu se serverem Thrift, kde se při zrušení relace někdy nevrací.
- [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
- [Spark-26147] UDF Pythonu ve stavu JOIN selže, i když se používají sloupce jenom z jedné strany spojení.
- [Spark-26211] Opravte vsazení pro binární a struktur a pole s hodnotou null.
- [Spark-26181]
hasMinMaxStats
metoda proColumnStatsMap
není správná. - Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
-
- listopadu 2018
- Opravili jsme problém, který způsobil, že se Poznámkový blok nedala použít po zrušení dotazu streamování.
- Opravili jsme problém ovlivňující určité dotazy pomocí funkcí okna.
- Opravili jsme problém ovlivňující datový proud z rozdílu s více změnami schématu.
- Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
Databricks runtime 4,3 (nepodporované )
Viz Databricks Runtime 4,3 (Nepodporováno).
-
- dubna 2019
- [Spark-26665][Core] Opravte chybu, která může způsobit, že BlockTransferService. fetchBlockSync zareaguje trvale.
- [Spark-24669][SQL] zrušení platnosti tabulek v případě kaskádové databáze.
-
- března 2019
- Opravila se chyba, která má vliv na generování kódu.
- Opravila se chyba ovlivňující rozdíl.
-
- února 2019
- Opravili jsme chybu ovlivňující JDBC/ODBC server.
-
- února 2019
- [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
- Vyloučení skrytých souborů při sestavování HadoopRDD.
- Pevný převod filtru Parquet pro predikát IN, pokud je jeho hodnota prázdná.
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili jsme problém, který může mít za následek, že parametr
df.rdd.count()
UDT vrátí nesprávnou odpověď pro určité případy. - Opravili jsme nekonzistenci mezi mezipamětí SQL cache RDD a jejím fyzickým plánem, což způsobuje nesprávný výsledek.
-
- ledna 2019
- Opravili jsme problém, který způsobuje chybu
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
- [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
- [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
- Je povolený rozdílový Lake.
- Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
-
- prosince 2018
- [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
- Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
- [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
- Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech,
spark.sql.files.ignoreCorruptFiles
Kdyžspark.sql.files.ignoreMissingFiles
je povolen nebo příznak - [Spark-26181]
hasMinMaxStats
metoda proColumnStatsMap
není správná. - Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
- Opravili jsme problém s výkonem v analyzátoru dotazů.
- Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
- Opravili jsme problém ovlivňující některé dotazy sjednocení.
-
- listopadu 2018
- [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
- [Spark-25387] Oprava pro NPE způsobila Chybný vstup sdíleného svazku clusteru.
- Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
-
- listopadu 2018
- [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
- Opravili jsme problém ovlivňující vyčištění dočasných objektů v konektoru synapse Analytics.
- [Spark-25816] Opravte rozlišení atributů ve vnořených extraktorech.
-
- října 2018
- Opravili jsme chybu, která má vliv na výstup běžící
SHOW CREATE TABLE
na rozdílových tabulkách. - Opravila se chyba ovlivňující
Union
operaci.
-
- září 2018
- [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
- [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
- Opraveno
NotSerializableException
ve zdroji dat Avro.
-
- září 2018
- [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když
failOnDataLoss=false
. - [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
- Omezení filtru by mělo správně zpracovat hodnotu null.
- Zlepšená stabilita prováděcího modulu.
Srpna 28, 2018
- Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
- [Spark-25142] Přidejte chybové zprávy, když pracovník Pythonu nemohl otevřít zásuvku v
_load_from_socket
.
Srpna 23, 2018
- [Spark-23935]mapEntry vyvolá
org.codehaus.commons.compiler.CompileException
. - Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
- [Spark-25051][SQL] FixNullability by se nemělo zastavit na AnalysisBarrier.
- [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
- Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
- [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
- [Spark-25096] Možnost vyhodnotit hodnotu null, je-li přetypování vynuceno s hodnotou null.
- Byl snížen výchozí počet vláken používaných příkazem Delta Lake Optimize, což snižuje nároky na paměť a rychleji potvrzování dat.
- [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
- Pevné přeredigování správce tajného klíče, když je příkaz částečně úspěšný
- [Spark-23935]mapEntry vyvolá
Databricks runtime 4,2 (nepodporované )
Viz Databricks Runtime 4,2 (Nepodporováno).
-
- února 2019
- Opravili jsme chybu ovlivňující JDBC/ODBC server.
-
- února 2019
- [Spark-26709][SQL] OptimizeMetadataOnlyQuery nezpracovává správně prázdné záznamy.
- Vyloučení skrytých souborů při sestavování HadoopRDD.
- Pevný převod filtru Parquet pro predikát IN, pokud je jeho hodnota prázdná.
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili jsme problém, který může mít za následek, že parametr
df.rdd.count()
UDT vrátí nesprávnou odpověď pro určité případy.
-
- ledna 2019
- Opraven problém, který
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
způsobuje chybu - Redigováné přihlašovací údaje z názvů RDD v uživatelském rozhraní Spark
- [Spark-26352]Změna pořadí vlastností by neměla měnit pořadí výstupních atributů.
- [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
- Je povolený rozdílový Lake.
- Pro všechny cenové úrovně se teď pro typy instancí pracovního procesu ls series pro všechny cenové úrovně povolila vstupně-výstupní mezipaměť datacihly.
-
- prosince 2018
- [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
- Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
- [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
- Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech,
spark.sql.files.ignoreCorruptFiles
Kdyžspark.sql.files.ignoreMissingFiles
je povolen nebo příznak - [Spark-26181]
hasMinMaxStats
metoda proColumnStatsMap
není správná. - Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
- Opravili jsme problém s výkonem v analyzátoru dotazů.
- Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
- Opravili jsme problém ovlivňující některé dotazy sjednocení.
-
- listopadu 2018
- [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
- Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
-
- listopadu 2018
- [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
-
- října 2018
- Opravili jsme chybu, která má vliv na výstup běžící
SHOW CREATE TABLE
na rozdílových tabulkách. - Opravila se chyba ovlivňující
Union
operaci.
-
- září 2018
- [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
- [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
- Opraveno
NotSerializableException
ve zdroji dat Avro.
-
- září 2018
- [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když
failOnDataLoss=false
. - [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
- Omezení filtru by mělo správně zpracovat hodnotu null.
Srpna 28, 2018
- Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
Srpna 23, 2018
- Pevný NoClassDefError pro rozdílový snímek
- [Spark-23935]mapEntry vyvolá
org.codehaus.commons.compiler.CompileException
. - [Spark-24957][SQL] průměr s desetinnou čárkou následovaný agregací vrátí špatný výsledek. Mohou být vráceny nesprávné výsledky AVERAGE. Přetypování přidané v operátoru průměr bude vynecháno, je-li výsledek dělení stejný jako stejný typ, na který je převeden.
- [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
- Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
- [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
- [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
- [Spark-24934][SQL] explicitně povolených podporované typy v horních a dolních mezích pro vyřazování oddílů v paměti. Když se ve filtrech dotazů na data v mezipaměti používá komplexní datové typy, Spark vždycky vrátí prázdnou sadu výsledků. Vyřazení na základě statistiky v paměti generuje nesprávné výsledky, protože u horních a dolních mezí pro komplexní typy je nastavená hodnota null. Oprava nepoužívá vyřazení na základě statistik v paměti pro komplexní typy.
- Pevné přeredigování správce tajného klíče, když je příkaz částečně úspěšný
- Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
Srpna 2, 2018
- Do Pythonu se přidalo rozhraní API writeStream. Table.
- Opravili jsme problém, který ovlivňuje rozdílové kontrolní body.
- [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
- Opravili jsme problém, který by mohl způsobit, že
mergeInto
příkaz vyprodukuje nesprávné výsledky. - Lepší stabilita při přístupu k Azure Data Lake Storage Gen1.
- [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
- [Spark-24878][SQL] opravte funkci reverzní funkce pro typ pole primitivního typu obsahujícího hodnotu null.
-
- července 2018
- Opravili jsme chybu při provádění dotazu, která by způsobila, že agregace na desetinných sloupcích s různými přesnostmi vracely v některých případech nesprávné výsledky.
- Opravili
NullPointerException
jsme chybu, která se vyvolala během pokročilých agregačních operací, jako jsou skupiny seskupení.
Databricks runtime 4,1 ml (nepodporované )
Viz Databricks Runtime 4,1 ml (Nepodporováno).
-
- července 2018
- Přidání služby Azure synapse Analytics do ML runtime 4,1
- Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
- Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
- Opravila se chyba, která má vliv na generování kódu.
- Opravili jsme chybu (
java.lang.NoClassDefFoundError
), která má vliv na rozdílový Lake. - Vylepšené zpracování chyb v rozdílovém Lake.
- Opravili jsme chybu, která způsobila nesprávná data přeskočení statistik pro sloupce řetězců 32 znaků nebo větší.
Databricks runtime 4,1 (nepodporované )
Viz Databricks Runtime 4,1 (Nepodporováno).
-
- ledna 2019
- [Spark-26366] ReplaceExceptWithFilter by měl uvažovat NULL jako false.
- Je povolený rozdílový Lake.
-
- prosince 2018
- [Spark-25002] Avro: Revidujte obor názvů výstupního záznamu.
- Opravili jsme problém ovlivňující určité dotazy pomocí join a limitu.
- [Spark-26307] Pevný CTAS při vkládání dělené tabulky s použitím podregistru SerDe.
- Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech,
spark.sql.files.ignoreCorruptFiles
Kdyžspark.sql.files.ignoreMissingFiles
je povolen nebo příznak - Opravili jsme problém ovlivňující instalaci kol Pythonu v prostředích bez přístupu k Internetu.
- Opravili jsme problém v PySpark, který způsobil, že akce dataframe selhala s chybou "připojení bylo zamítnuto".
- Opravili jsme problém ovlivňující některé dotazy sjednocení.
-
- listopadu 2018
- [Spark-17916][Spark-25241]oprava prázdného řetězce, který se analyzuje jako null, pokud je nastavená hodnota NullValue
- Opravili jsme problém ovlivňující určité agregační dotazy pomocí levého nebo antimalwarového spojení.
-
- listopadu 2018
- [Spark-25741] Dlouhé adresy URL se ve webovém uživatelském rozhraní nevykreslují správně.
- [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
-
- října 2018
- Opravili jsme chybu, která má vliv na výstup běžící
SHOW CREATE TABLE
na rozdílových tabulkách. - Opravila se chyba ovlivňující
Union
operaci.
-
- září 2018
- [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
- [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
- Opraveno
NotSerializableException
ve zdroji dat Avro.
-
- září 2018
- [Spark-25214][SS] Oprava problému, kdy může zdroj Kafka v2 vracet duplicitní záznamy, když
failOnDataLoss=false
. - [Spark-24987][SS] opravit nevrácenou Kafka uživatele, když nejsou žádná nová posunutí pro articlePartition.
- Omezení filtru by mělo správně zpracovat hodnotu null.
Srpna 28, 2018
- Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
- [Spark-25084]"distribuovat podle" na více sloupcích (zalomení závorek) může vést k CodeGen problému.
- [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
Srpna 23, 2018
- Pevný NoClassDefError pro rozdílový snímek.
- [Spark-24957][SQL] průměr s desetinnou čárkou následovaný agregací vrátí špatný výsledek. Mohou být vráceny nesprávné výsledky AVERAGE. Přetypování přidané v operátoru průměr bude vynecháno, je-li výsledek dělení stejný jako stejný typ, na který je převeden.
- Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
- [Spark-24934][SQL] explicitně povolených podporované typy v horních a dolních mezích pro vyřazování oddílů v paměti. Když se ve filtrech dotazů na data v mezipaměti používá komplexní datové typy, Spark vždycky vrátí prázdnou sadu výsledků. Vyřazení na základě statistiky v paměti generuje nesprávné výsledky, protože u horních a dolních mezí pro komplexní typy je nastavená hodnota null. Oprava nepoužívá vyřazení na základě statistik v paměti pro komplexní typy.
- [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
- Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
- Pevné přeredigování správce tajného klíče při úspěšném provedení příkazu
Srpna 2, 2018
- [Spark-24613][SQL] mezipaměť se systémem souborů UDF nemohla odpovídat následným závislým mezipamětem. Zabalí logický plán s AnalysisBarrier pro plánování spuštění v CacheManager, aby se plán znovu neanalyzoval. To je také regrese Spark 2,3.
- Opravili jsme problém konektoru synapse Analytics, který má vliv na převod časového pásma pro zápis dat DateType.
- Opravili jsme problém, který ovlivňuje rozdílové kontrolní body.
- Opravili jsme problém, který by mohl způsobit, že
mergeInto
příkaz vyprodukuje nesprávné výsledky. - [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
- [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
-
- července 2018
- Opravili jsme chybu při provádění dotazu, která by způsobila, že agregace na desetinných sloupcích s různými přesnostmi vracely v některých případech nesprávné výsledky.
- Opravili
NullPointerException
jsme chybu, která se vyvolala během pokročilých agregačních operací, jako jsou skupiny seskupení.
-
- června 2018
- Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
-
- června 2018
- Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
- Opravila se chyba, která má vliv na generování kódu.
- Opravili jsme chybu (
java.lang.NoClassDefFoundError
), která má vliv na rozdílový Lake. - Vylepšené zpracování chyb v rozdílovém Lake.
-
- května 2018
- Opravili jsme chybu, která způsobila nesprávná data přeskočení statistik pro sloupce řetězců 32 znaků nebo větší.
Databricks runtime 4,0 (nepodporované )
Viz Databricks Runtime 4,0 (Nepodporováno).
-
- listopadu 2018
- [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
-
- října 2018
- Opravila se chyba ovlivňující
Union
operaci.
-
- září 2018
- [Spark-25368][SQL] nesprávné odvození omezení vrací nesprávný výsledek.
- [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
- Opraveno
NotSerializableException
ve zdroji dat Avro.
-
- září 2018
- Omezení filtru by mělo správně zpracovat hodnotu null.
Srpna 28, 2018
- Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
Srpna 23, 2018
- Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
- Pevné přeredigování správce tajného klíče při úspěšném provedení příkazu
- Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
- [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
- [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
Srpna 2, 2018
- [Spark-24452] Vyhněte se možnému přetečení v int přidat nebo více.
- [Spark-24588] Spojení streamování by mělo vyžadovat HashClusteredPartitioning z podřízených objektů.
- Opravili jsme problém, který by mohl způsobit, že
mergeInto
příkaz vyprodukuje nesprávné výsledky. - [Spark-24867][SQL] přidejte AnalysisBarrier do DataFrameWriter. Mezipaměť SQL se nepoužívá při použití DataFrameWriter k zápisu datového rámce se systémem souborů UDF. To je regrese způsobená změnami, které jsme provedli v AnalysisBarrier, protože ne všechna pravidla analyzátoru jsou idempotentní.
- [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
-
- června 2018
- Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
-
- června 2018
- Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
- Vylepšené zpracování chyb v rozdílovém Lake.
-
- května 2018
- Opravy chyb pro správu tajných kódů datacihly
- Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
- Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
Duben 24, 2018
- Upgradovat sadu Azure Data Lake Store SDK z 2.0.11 na 2.2.8, aby se zlepšila stabilita přístupu k Azure Data Lake Store.
- Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když
spark.databricks.io.hive.fastwriter.enabled
jefalse
. - Opravili jsme problém, který selhal při serializaci úlohy.
- Vylepšená stabilita rozdílových Lake.
-
- března 2018
- Zabránit zbytečným aktualizacím metadat při psaní do rozdílových Lake.
- Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.
Databricks runtime 3,5 LTS (nepodporované )
Viz Databricks Runtime 3,5 LTS (Nepodporováno).
-
- listopadu 2019
- [Spark-29743][SQL] Ukázka by měla nastavit needCopyResult na true, pokud je needCopyResult jeho dítěte true.
Říjen 8, 2019
- Změny na straně serveru povolují, aby se ovladač ODBC Simba Apache Spark znovu připojil a pokračoval po selhání připojení během načítání výsledků (vyžaduje aktualizaci ovladače Simba Apache Spark na verzi 2.6.10).
-
- září 2019
- [Spark-28699][SQL] zakázat řazení podle základů pro ShuffleExchangeExec v případě opětovného rozdělení na oddíly
-
- dubna 2019
- [Spark-26665][Core] Opravte chybu, která může způsobit, že BlockTransferService. fetchBlockSync zareaguje trvale.
-
- února 2019
- Opravili jsme problém, že síťový protokol Spark úrovně Standard může být při posílání velkých chybových zpráv RPC s povoleným šifrováním poškozený (když
spark.network.crypto.enabled
je nastavené na true).
-
- ledna 2019
- Opravili jsme problém, který může mít za následek, že parametr
df.rdd.count()
UDT vrátí nesprávnou odpověď pro určité případy.
-
- prosince 2018
- Ignorovat poškozené soubory po jednom nebo několika opakovaných pokusech,
spark.sql.files.ignoreCorruptFiles
Kdyžspark.sql.files.ignoreMissingFiles
je povolen nebo příznak - Opravili jsme problém ovlivňující některé dotazy sjednocení.
-
- listopadu 2018
- [Spark-25816] Pevné rozlišení atributů ve vnořených extraktorech.
-
- listopadu 2018
- [Spark-25714] Opravte zpracování hodnoty null v pravidle Optimalizátoru BooleanSimplification.
-
- října 2018
- Opravila se chyba ovlivňující
Union
operaci.
-
- září 2018
- [Spark-25402][SQL] zpracování hodnoty null v BooleanSimplification.
- Opraveno
NotSerializableException
ve zdroji dat Avro.
-
- září 2018
- Omezení filtru by mělo správně zpracovat hodnotu null.
Srpna 28, 2018
- Opravili jsme chybu v rozdílových příkazech Lake DELETE, která by nesprávně odstranila řádky, u kterých se podmínka vyhodnotí jako null.
- [Spark-25114] RecordBinaryComparator opravit, pokud je odčítání mezi dvěma slovy dělitelná Integer.MAX_VALUE.
Srpna 23, 2018
- [Spark-24809] Serializace LongHashedRelation v vykonavateli může způsobit chybu dat.
- Opravil se problém mapování s možnou hodnotou null v čtecím zařízení Parquet.
- [Spark-25081] Opravili jsme chybu, kdy ShuffleExternalSorter může získat přístup ke stránce vydaná paměť, když dojde k chybě při navrácení paměti.
- Opravili jsme interakci mezi datacihly a Pyspark, které by mohly způsobit přechodné selhání čtení.
-
- června 2018
- Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
-
- června 2018
- Opravili jsme chybu, která by mohla způsobit nesprávné výsledky dotazu v případě, že se název sloupce oddílu, který se používá v predikátu, liší od případu tohoto sloupce ve schématu tabulky.
-
- června 2018
- Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
- Vylepšené zpracování chyb v rozdílovém Lake.
-
- května 2018
- Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
- Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
- Opravili chybu ovlivňující určité agregace v dotazech streamování.
Duben 24, 2018
- Upgradovat sadu Azure Data Lake Store SDK z 2.0.11 na 2.2.8, aby se zlepšila stabilita přístupu k Azure Data Lake Store.
- Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když
spark.databricks.io.hive.fastwriter.enabled
jefalse
. - Opravili jsme problém, který selhal při serializaci úlohy.
-
- března 2018
- Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.
Březen 01, 2018
- Zvýšila efektivita zpracování datových proudů, jejichž zastavení může trvat dlouhou dobu.
- Opravili jsme problém ovlivňující automatické dokončování v Pythonu.
- Použili jsme opravy zabezpečení Ubuntu.
- Opravili jsme problém ovlivňující některé dotazy pomocí funkcí Python UDF a Window.
- Opravili jsme problém ovlivňující použití UDF v clusteru s povoleným řízením přístupu k tabulce.
-
- ledna 2018
- Opravili jsme problém, který má vliv na manipulaci s tabulkami uloženými ve službě Azure Blob Storage.
- Pevná agregace po dropDuplicates v prázdném dataframe
Databricks runtime 3,4 (nepodporované )
Viz Databricks Runtime 3,4 (Nepodporováno).
-
- června 2018
- Opravili jsme chybu ovlivňující modul pro spouštění Spark SQL.
- Vylepšené zpracování chyb v rozdílovém Lake.
-
- května 2018
- Lepší stabilita při čtení dat uložených v Azure Data Lake Store.
- Opravili jsme chybu ovlivňující ukládání do mezipaměti RDD.
- Opravili jsme chybu, která má vliv na hodnotu null, která je v Spark SQL shodná.
Duben 24, 2018
- Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když
spark.databricks.io.hive.fastwriter.enabled
jefalse
.
- Opravili jsme chybu, která má vliv na vložení přepsání do dělených tabulek podregistru, když
-
- března 2018
- Opravili jsme problém způsobený konfliktem časování, který by ve výjimečných případech mohl vést ke ztrátě některých výstupních souborů.
DEC 13, 2017
- Opravili jsme problém ovlivňující UDF v Scala.
- Opravili jsme problém, který ovlivňuje použití dat přeskočení indexu u tabulek zdrojů dat uložených v cestách bez DBFS.
Dec 07, 2017
- Vylepšení náhodné stability.