Databricks Runtime 7.0 (nieobsługiwane)

Artykuł
03/01/2024

Usługa Databricks opublikowała ten obraz w czerwcu 2020 roku.

Poniższe informacje o wersji zawierają informacje o środowisku Databricks Runtime 7.0 obsługiwanym przez platformę Apache Spark 3.0.

Nowe funkcje

Środowisko Databricks Runtime 7.0 zawiera następujące nowe funkcje:

Scala 2.12

Środowisko Databricks Runtime 7.0 uaktualnia język Scala z wersji 2.11.12 do 2.12.10. Lista zmian między wersją Scala 2.12 i 2.11 znajduje się w informacjach o wersji Scala 2.12.0.
Automatyczne ładowanie (publiczna wersja zapoznawcza) wydane w środowisku Databricks Runtime 6.4 zostało ulepszone w środowisku Databricks Runtime 7.0

Automatyczne ładowanie zapewnia wydajniejszy sposób przetwarzania nowych plików danych przyrostowo podczas procesu ETL w magazynie obiektów blob w chmurze. Jest to poprawa przesyłania strumieniowego ze strukturą opartą na plikach, która identyfikuje nowe pliki, wielokrotnie wyświetlając katalog w chmurze i śledząc pliki, które zostały zaobserwowane, i może być bardzo nieefektywna w miarę wzrostu katalogu. Automatyczne ładowanie jest również wygodniejsze i skuteczne niż przesyłanie strumieniowe ze strukturą opartą na powiadomieniach plików, co wymaga ręcznego skonfigurowania usług powiadomień o plikach w chmurze i nie pozwala na wypełnianie istniejących plików. Aby uzyskać szczegółowe informacje, zobacz Co to jest automatyczne ładowanie?.

W środowisku Databricks Runtime 7.0 nie trzeba już żądać niestandardowego obrazu środowiska Databricks Runtime w celu korzystania z modułu automatycznego ładującego.
COPY INTO (Publiczna wersja zapoznawcza), która umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych, została ulepszona w środowisku Databricks Runtime 7.0

Wydane jako publiczna wersja zapoznawcza w środowisku Databricks Runtime 6.4 polecenie COPY INTO SQL umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych. Aby załadować dane do usługi Delta Lake dzisiaj, musisz użyć interfejsów API ramki danych platformy Apache Spark. Jeśli podczas ładowania występują błędy, należy je skutecznie obsługiwać. Nowe COPY INTO polecenie udostępnia znany interfejs deklaratywny do ładowania danych w języku SQL. Polecenie śledzi wcześniej załadowane pliki i bezpiecznie uruchamia je ponownie w przypadku awarii. Aby uzyskać szczegółowe informacje, zobacz KOPIOWANIE DO.

Ulepszenia

Łącznik usługi Azure Synapse (dawniej SQL Data Warehouse) obsługuje instrukcję COPY .

Główną zaletą COPY jest to, że użytkownicy z niższymi uprawnieniami mogą zapisywać dane w usłudze Azure Synapse bez konieczności posiadania rygorystycznych CONTROL uprawnień w usłudze Azure Synapse.
Polecenie %matplotlib inline magic nie jest już wymagane do wyświetlania obiektów Matplolib wbudowanych w komórkach notesu. Są one zawsze wyświetlane w tekście domyślnie.
Liczby biblioteki Matplolib są teraz renderowane za pomocą transparent=Falseelementu , dzięki czemu tła określone przez użytkownika nie zostaną utracone. To zachowanie można zastąpić, ustawiając konfigurację spark.databricks.workspace.matplotlib.transparent trueplatformy Spark.
W przypadku uruchamiania zadań produkcyjnych przesyłania strumieniowego ze strukturą w klastrach trybu współbieżności ponowne uruchomienie zadania czasami kończy się niepowodzeniem, ponieważ wcześniej uruchomione zadanie nie zostało prawidłowo zakończone. Środowisko Databricks Runtime 6.3 wprowadziło możliwość ustawienia konfiguracji spark.sql.streaming.stopActiveRunOnRestart true SQL w klastrze, aby upewnić się, że poprzedni przebieg zostanie zatrzymany. Ta konfiguracja jest domyślnie ustawiana w środowisku Databricks Runtime 7.0.

Główne zmiany w bibliotece

Pakiety języka Python

Uaktualniono główne pakiety języka Python:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 —> 3.1.3
numpy 1.16.2 —> 1.18.1
pandas 0.24.2 —> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 —> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Usunięte pakiety języka Python:

boto (użyj boto3)
pycurl

Uwaga

Środowisko języka Python w środowisku Databricks Runtime 7.0 korzysta z języka Python 3.7, który różni się od zainstalowanego systemu Ubuntu Python: /usr/bin/python i /usr/bin/python2 jest połączony z językiem Python 2.7 i /usr/bin/python3 jest połączony z językiem Python 3.6.

Pakiety języka R

Dodano pakiety języka R:

Miotła
wysoki
isoband
knitr
Markdown
modeler
reprex
rmarkdown
rvest
selektor
tidyverse
tinytex
xfun

Usunięte pakiety języka R:

abind
bitops
samochód
carData
DoMC
Gbm
H2o
littler
lme4
mapproj
Mapy
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsxx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
Rio
Sp
Rozrzednia
statmod
Zip

Biblioteki Java i Scala

Wersja programu Apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i uaktualnianych do wersji 2.3 programu Hive SerDes.
Wcześniej pliki jar usługi Azure Storage i Key Vault zostały spakowane w ramach środowiska Databricks Runtime, co uniemożliwia korzystanie z różnych wersji tych bibliotek dołączonych do klastrów. Klasy w obszarze com.microsoft.azure.storage i com.microsoft.azure.keyvault nie znajdują się już na ścieżce klasy w środowisku Databricks Runtime. Jeśli zależysz od jednej z tych ścieżek klas, musisz teraz dołączyć zestaw SDK usługi Azure Storage lub zestaw SDK usługi Azure Key Vault do klastrów.

Zmiany zachowania

W tej sekcji wymieniono zmiany zachowania środowiska Databricks Runtime 6.6 do środowiska Databricks Runtime 7.0. Należy pamiętać o tych obciążeniach podczas migrowania obciążeń z niższych wersji środowiska Databricks Runtime do środowiska Databricks Runtime 7.0 lub nowszego.

Zmiany zachowania platformy Spark

Ponieważ środowisko Databricks Runtime 7.0 jest pierwszym środowiskiem Databricks Runtime opartym na platformie Spark 3.0, istnieje wiele zmian, o których należy pamiętać podczas migrowania obciążeń z środowiska Databricks Runtime 5.5 LTS lub 6.x, które są tworzone na platformie Spark 2.4. Te zmiany są wymienione w sekcji "Zmiany zachowania" każdego obszaru funkcjonalnego w sekcji Apache Spark tego artykułu z informacjami o wersji:

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą
Zmiany zachowania dla biblioteki MLlib
Zmiany zachowania w usłudze SparkR

Inne zmiany zachowania

Uaktualnienie do wersji Scala 2.12 obejmuje następujące zmiany:
- Serializacja komórek pakietu jest obsługiwana inaczej. Poniższy przykład ilustruje zmianę zachowania i sposób jego obsługi.
  
  Uruchomienie zgodnie foo.bar.MyObjectInPackageCell.run() z definicją w poniższej komórce pakietu spowoduje wyzwolenie błędu java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Aby obejść ten błąd, można opakowować MyObjectInPackageCell wewnątrz klasy możliwej do serializacji.
- Niektóre przypadki użycia DataStreamWriter.foreachBatch będą wymagać aktualizacji kodu źródłowego. Ta zmiana wynika z faktu, że język Scala 2.12 ma automatyczną konwersję z wyrażeń lambda na typy SAM i może powodować niejednoznaczność.
  
  Na przykład następujący kod Scala nie może skompilować:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Aby naprawić błąd kompilacji, przejdź foreachBatch { (df, id) => myFunc(df, id) } do foreachBatch(myFunc _) interfejsu API Języka Java lub użyj go jawnie: foreachBatch(new VoidFunction2 ...).
Ponieważ wersja apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i SerDes hive została uaktualniona do wersji 2.3, wymagane są dwie zmiany:
- Interfejs programu Hive SerDe jest zastępowany przez klasę AbstractSerDeabstrakcyjną . W przypadku dowolnej niestandardowej implementacji programu Hive SerDe migracja do AbstractSerDe programu jest wymagana.
- Ustawienie spark.sql.hive.metastore.jars oznacza builtin , że klient magazynu metadanych Hive 2.3 będzie używany do uzyskiwania dostępu do magazynów metadanych dla środowiska Databricks Runtime 7.0. Jeśli chcesz uzyskać dostęp do zewnętrznych magazynów metadanych opartych na technologii Hive 1.2, ustaw na spark.sql.hive.metastore.jars folder zawierający pliki jar programu Hive 1.2.

Wycofywanie i usuwanie

Indeks pomijania danych został przestarzały w środowisku Databricks Runtime 4.3 i został usunięty w środowisku Databricks Runtime 7.0. Zalecamy zamiast tego używanie tabel delty, które oferują ulepszone możliwości pomijania danych.
W środowisku Databricks Runtime 7.0 podstawowa wersja platformy Apache Spark używa języka Scala 2.12. Ponieważ biblioteki skompilowane w środowisku Scala 2.11 mogą wyłączyć klastry Środowiska Databricks Runtime 7.0 w nieoczekiwany sposób, klastry z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym nie instalują bibliotek skonfigurowanych do zainstalowania we wszystkich klastrach. Karta Biblioteki klastra zawiera stan Skipped i komunikat o wycofaniu, który wyjaśnia zmiany w obsłudze bibliotek. Jeśli jednak masz klaster, który został utworzony we wcześniejszej wersji środowiska Databricks Runtime przed wydaniem platformy usługi Azure Databricks w wersji 3.20 do obszaru roboczego, a teraz edytujesz ten klaster, aby używać środowiska Databricks Runtime 7.0, wszystkie biblioteki skonfigurowane do zainstalowania we wszystkich klastrach zostaną zainstalowane w tym klastrze. W takim przypadku wszystkie niezgodne elementy JAR w zainstalowanych bibliotekach mogą spowodować wyłączenie klastra. Obejściem jest sklonowanie klastra lub utworzenie nowego klastra.

Apache Spark

Środowisko Databricks Runtime 7.0 obejmuje platformę Apache Spark 3.0.

W tej sekcji:

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą
MLlib
SparkR
GraphX
Wycofywanie
Znane problemy

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą

Najważniejsze informacje

(Projekt wodoru) Harmonogram obsługujący akcelerator (SPARK-24615)
Wykonywanie zapytań adaptacyjnych (SPARK-31412)
Oczyszczanie partycji dynamicznej (SPARK-11150)
Przeprojektowany interfejs API UDF biblioteki pandas z wskazówkami typu (SPARK-28264)
Interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
Interfejs API wtyczki wykazu (SPARK-31121)
Lepsza zgodność ze standardem ANSI SQL

Ulepszenia wydajności

Wykonywanie zapytań adaptacyjnych (SPARK-31412)
- Podstawowa struktura (SPARK-23128)
- Korekta liczby partycji po mieszania (SPARK-28177)
- Dynamiczne ponowne użycie podzapytania (SPARK-28753)
- Czytnik mieszania lokalnego (SPARK-28560)
- Optymalizacja sprzężenia niesymetrycznego (SPARK-29544)
- Optymalizowanie ciągłych bloków mieszania (SPARK-9853)
Oczyszczanie partycji dynamicznej (SPARK-11150)
Inne reguły optymalizatora
- Ponowne użycie regułyPodsubquery (SPARK-27279)
- Rule PushDownLeftSemiAntiJoin (SPARK-19712)
- Reguła PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Reguła eliminuje sortowanie bez limitu w podzapytaniu sprzężenia/agregacji (SPARK-29343)
- Rule PruneHiveTablePartitions (SPARK-15616)
- Oczyszczanie niepotrzebnych zagnieżdżonych pól z generowania (SPARK-27707)
- RewriteNonCorrelatedExists (SPARK-29800)
Minimalizowanie kosztów synchronizacji pamięci podręcznej tabel (SPARK-26917), (SPARK-26617), (SPARK-26548)
Podziel kod agregacji na małe funkcje (SPARK-21870)
Dodawanie dzielenia na partie w poleceniach INSERT i ALTER TABLE ADD PARTITION (SPARK-29938)

Ulepszenia rozszerzalności

Interfejs API wtyczki wykazu (SPARK-31121)
Refaktoryzacja interfejsu API źródła danych w wersji 2 (SPARK-25390)
Obsługa magazynu metadanych Hive 3.0 i 3.1 (SPARK-27970),(SPARK-24360)
Rozszerzanie interfejsu wtyczki Spark na sterownik (SPARK-29396)
Rozszerzanie systemu metryk platformy Spark przy użyciu metryk zdefiniowanych przez użytkownika przy użyciu wtyczek funkcji wykonawczej (SPARK-28091)
Interfejsy API dla deweloperów na potrzeby rozszerzonej obsługi przetwarzania kolumnowego (SPARK-27396)
Wbudowana migracja źródła przy użyciu wersji DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Allow FunctionInjection in SparkExtensions (SPARK-25560)
Umożliwia zarejestrowanie agregatora jako UDAF (SPARK-27296)

ulepszenia Połączenie or

Oczyszczanie kolumn za pomocą wyrażeń nieokreślonych (SPARK-29768)
Obsługa spark.sql.statistics.fallBackToHdfs tabel źródeł danych (SPARK-25474)
Zezwalaj na oczyszczanie partycji za pomocą filtrów podzapytania w źródle plików (SPARK-26893)
Unikaj wypychania podzapytań w filtrach źródła danych (SPARK-25482)
Cykliczne ładowanie danych ze źródeł plików (SPARK-27990)
Parquet/ORC
- Wypychanie predykatów rozłącznych (SPARK-27699)
- Uogólnij zagnieżdżone oczyszczanie kolumn (SPARK-25603) i domyślnie włączone (SPARK-29805)
- Tylko Parquet
  - Wypychanie predykatu Parquet dla zagnieżdżonych pól (SPARK-17636)
- Tylko ORC
  - Obsługa schematu scalania dla ORC (SPARK-11412)
  - Zagnieżdżone oczyszczanie schematu dla ORC (SPARK-27034)
  - Zmniejszenie złożoności konwersji predykatu dla ORC (SPARK-27105, SPARK-28108)
  - Uaktualnianie usługi Apache ORC do wersji 1.5.9 (SPARK-30695)
CSV
- Obsługa wypychania filtrów w źródle danych CSV (SPARK-30323)
Hive SerDe
- Brak wnioskowania schematu podczas odczytywania tabeli serde programu Hive z natywnym źródłem danych (SPARK-27119)
- Polecenia CTAS programu Hive powinny używać źródła danych, jeśli jest konwertowany (SPARK-25271)
- Użyj natywnego źródła danych, aby zoptymalizować wstawianie partycjonowanej tabeli Programu Hive (SPARK-28573)
Apache Kafka
- Dodano obsługę nagłówków platformy Kafka (SPARK-23539)
- Dodawanie obsługi tokenu delegowania platformy Kafka (SPARK-25501)
- Wprowadzenie nowej opcji do źródła platformy Kafka: przesunięcie według znacznika czasu (rozpoczęcie/zakończenie) (SPARK-26848)
- Obsługa minPartitions opcji źródła wsadowego platformy Kafka i źródła przesyłania strumieniowego w wersji 1 (SPARK-30656)
- Uaktualnianie platformy Kafka do wersji 2.4.1 (SPARK-31126)
Nowe wbudowane źródła danych
- Nowe wbudowane źródła danych plików binarnych (SPARK-25348)
- Nowe źródła danych bez operacji wsadowych (SPARK-26550) i ujście przesyłania strumieniowego bez operacji (SPARK-26649)

Ulepszenia funkcji

[Wodór] Harmonogram obsługujący akcelerator (SPARK-24615)
Wprowadzenie pełnego zestawu wskazówek sprzężenia (SPARK-27225)
Dodawanie PARTITION BY wskazówki dotyczącej zapytań SQL (SPARK-28746)
Obsługa metadanych na serwerze Thrift (SPARK-28426)
Dodawanie funkcji wyższego zamówienia do interfejsu API scala (SPARK-27297)
Obsługa prostego zbierania wszystkich w kontekście zadania bariery (SPARK-30667)
Funkcje zdefiniowane przez użytkownika programu Hive obsługują typ UDT (SPARK-28158)
Obsługa operatorów DELETE/UPDATE/MERGE w Katalizatorze (SPARK-28351, SPARK-28892, SPARK-28893)
Implementowanie elementu DataFrame.tail (SPARK-30185)
Nowe wbudowane funkcje
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- wersja (SPARK-29554)
- xxhash64 (SPARK-27099)
Ulepszenia istniejących wbudowanych funkcji
- Wbudowane funkcje/ulepszenia operacji daty/godziny (SPARK-31415)
- Tryb obsługi FAILFAST dla from_json (SPARK-25243)
- array_sort dodaje nowy parametr komparatora (SPARK-29020)
- Filtr może teraz przyjmować indeks jako dane wejściowe, a także element (SPARK-28962)

Ulepszenia zgodności sql

Przełącz się do kalendarza proleptycznego gregoriańskiego (SPARK-26651)
Tworzenie własnej definicji wzorca daty/godziny platformy Spark (SPARK-31408)
Wprowadzenie zasad przypisania magazynu ANSI dla wstawiania tabeli (SPARK-28495)
Domyślnie postępuj zgodnie z regułą przypisania magazynu ANSI w wstawianiu tabeli (SPARK-28885)
Dodawanie kodu SQLConf spark.sql.ansi.enabled (SPARK-28989)
Obsługa klauzuli filtru ANSI SQL dla wyrażenia agregowanego (SPARK-27986)
Obsługa funkcji ANSI SQL OVERLAY (SPARK-28077)
Obsługa zagnieżdżonych komentarzy w nawiasach ANSI (SPARK-28880)
Zgłaszanie wyjątku w przepełnieniu dla liczb całkowitych (SPARK-26218)
Sprawdzanie przepełnienia pod kątem operacji arytmetycznych interwału (SPARK-30341)
Zgłaszanie wyjątku w przypadku rzutowania nieprawidłowego ciągu na typ liczbowy (SPARK-30292)
Pomnożyj interwał i podziel zachowanie przepełnienia zgodnie z innymi operacjami (SPARK-30919)
Dodawanie aliasów typu ANSI dla znaków i dziesiętnych (SPARK-29941)
Analizator SQL definiuje zastrzeżone słowa kluczowe zgodne ze standardem ANSI (SPARK-26215)
Zabraniaj zastrzeżonych słów kluczowych jako identyfikatorów, gdy tryb ANSI jest włączony (SPARK-26976)
Obsługa składni ANSI SQL LIKE ... ESCAPE (SPARK-28083)
Obsługa składni ansi SQL Boolean-Predykate (SPARK-27924)
Lepsza obsługa skorelowanego przetwarzania podzapytania (SPARK-18455)

Ulepszenia monitorowania i debugowania

Nowy interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
SHS: zezwalaj na przerzucanie dzienników zdarzeń na potrzeby uruchamiania aplikacji przesyłania strumieniowego (SPARK-28594)
Dodawanie interfejsu API, który umożliwia użytkownikowi definiowanie i obserwowanie dowolnych metryk w zapytaniach wsadowych i przesyłanych strumieniowo (SPARK-29345)
Instrumentacja do śledzenia czasu planowania poszczególnych zapytań (SPARK-26129)
Umieść podstawowe metryki mieszania w operatorze programu SQL Exchange (SPARK-26139)
Instrukcja SQL jest wyświetlana na karcie SQL zamiast wywołania (SPARK-27045)
Dodawanie etykietki narzędzia do interfejsu SparkUI (SPARK-29449)
Zwiększanie współbieżnej wydajności serwera historii (SPARK-29043)
EXPLAIN FORMATTED polecenie (SPARK-27395)
Obsługa dumpingu planów obcięte i wygenerowanego kodu do pliku (SPARK-26023)
Ulepszanie struktury opisywania w celu opisania danych wyjściowych zapytania (SPARK-26982)
Dodaj SHOW VIEWS polecenie (SPARK-31113)
Ulepszanie komunikatów o błędach analizatora SQL (SPARK-27901)
Natywna obsługa monitorowania rozwiązania Prometheus (SPARK-29429)

Ulepszenia programu PySpark

Przeprojektowano funkcje zdefiniowane przez użytkownika biblioteki pandas z wskazówkami typu (SPARK-28264)
Potok UDF biblioteki Pandas (SPARK-26412)
Obsługa klasy StructType jako argumentów i zwracanych typów dla funkcji UDF biblioteki Scalar Pandas (SPARK-27240 )
Obsługa współgrupy ramek danych za pośrednictwem zdefiniowanych przez użytkownika biblioteki Pandas (SPARK-27463)
Dodaj mapInPandas , aby zezwolić na iterator ramek danych (SPARK-28198)
Niektóre funkcje SQL powinny również przyjmować nazwy kolumn (SPARK-26979)
Zwiększenie liczby wyjątków SQL PySpark (SPARK-31849)

Ulepszenia dokumentacji i pokrycia testów

Tworzenie odwołania SQL (SPARK-28588)
Tworzenie podręcznika użytkownika dla interfejsu WebUI (SPARK-28372)
Tworzenie strony dokumentacji konfiguracji SQL (SPARK-30510)
Dodawanie informacji o wersji dla konfiguracji platformy Spark (SPARK-30839)
Testy regresji portów z bazy danych PostgreSQL (SPARK-27763)
Pokrycie testowe thrift-server (SPARK-28608)
Testowanie pokrycia zdefiniowanych przez użytkownika (UDF języka Python, funkcji UDF biblioteki pandas, scala UDF) (SPARK-27921)

Inne istotne zmiany

Wbudowane uaktualnienie wykonywania programu Hive z wersji 1.2.1 do 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Domyślnie używaj zależności apache Hive 2.3 (SPARK-30034)
GA Scala 2.12 i usuń 2.11 (SPARK-26132)
Ulepszanie logiki dla funkcji wykonawczych limitu czasu w alokacji dynamicznej (SPARK-20286)
Utrwalone na dysku bloki RDD obsługiwane przez usługę mieszania i ignorowane dla alokacji dynamicznej (SPARK-27677)
Uzyskiwanie nowych funkcji wykonawczych w celu uniknięcia zawieszenia z powodu blokowania listy (SPARK-22148)
Zezwalaj na udostępnianie alokatorów puli pamięci Netty (SPARK-24920)
Naprawa zakleszczenia między elementami TaskMemoryManager i UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Wprowadzenie AdmissionControl do interfejsów API dla funkcji StructuredStreaming (SPARK-30669)
Zwiększenie wydajności strony głównej historii platformy Spark (SPARK-25973)
Przyspieszanie i obniżanie agregacji metryk w odbiorniku SQL (SPARK-29562)
Unikaj sieci, gdy bloki mieszania są pobierane z tego samego hosta (SPARK-27651)
Ulepszanie listy plików (DistributedFileSystemSPARK-27801)

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą

Poniższe przewodniki migracji zawierają listę zmian zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Następujące zmiany zachowania nie zostały omówione w tych przewodnikach migracji:

W usłudze Spark 3.0 przestarzała klasa org.apache.spark.sql.streaming.ProcessingTime została usunięta. Użycie w zamian parametru org.apache.spark.sql.streaming.Trigger.ProcessingTime. Podobnie, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger został usunięty na rzecz Trigger.Continuous, i org.apache.spark.sql.execution.streaming.OneTimeTrigger został ukryty na rzecz Trigger.Once. (SPARK-28199)
W środowisku Databricks Runtime 7.0 podczas odczytywania tabeli Hive SerDe domyślnie platforma Spark nie zezwala na odczytywanie plików w podkatalogu, który nie jest partycją tabeli. Aby ją włączyć, ustaw konfigurację spark.databricks.io.hive.scanNonpartitionedDirectory.enabled jako true. Nie ma to wpływu na natywne czytniki tabel i czytniki plików platformy Spark.

Przewodniki programistyczne:

Przewodnik programowania RDD platformy Spark
Spark SQL, DataFrames and Datasets Guide
Przewodnik programowania przesyłania strumieniowego ze strukturą.

MLlib

Najważniejsze informacje

Dodano obsługę wielu kolumn do narzędzia Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) i PySpark QuantileDiscretizer (SPARK-22796)
Obsługa transformacji funkcji opartej na drzewie (SPARK-13677)
Dodano dwóch nowych ewaluatorów MultilabelClassificationEvaluator (SPARK-16692) i RankingEvaluator (SPARK-28045)
Dodano obsługę wag próbek w module DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612) 24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) i GaussianMixture (SPARK-30102)
Dodano interfejs API języka R dla klasy PowerIterationClustering (SPARK-19827)
Dodano odbiornik Spark ML do śledzenia stanu potoku uczenia maszynowego (SPARK-23674)
Dopasuj zestaw weryfikacji został dodany do gradientu Wzmocnione drzewa w języku Python (SPARK-24333)
Dodano transformator RobustScaler (SPARK-28399)
Dodano klasyfikator i regresję maszyn factorization (SPARK-29224)
Gaussian Naive Bayes (SPARK-16872) i Add Naive Bayes (SPARK-29942) zostały dodane
Parzystość funkcji uczenia maszynowego między językami Scala i Python (SPARK-28958)
predictRaw jest upubliczniony we wszystkich modelach klasyfikacji. funkcja predictProbability jest publicznie udostępniana we wszystkich modelach klasyfikacji z wyjątkiem LinearSVCModel (SPARK-30358)

Zmiany zachowania dla biblioteki MLlib

W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Przewodnik migracji: MLlib (Edukacja maszyny)

Następujące zmiany zachowania nie zostały omówione w przewodniku migracji:

Na platformie Spark 3.0 regresja logistyczna w Pyspark zwróci teraz (poprawnie) wartość LogisticRegressionSummary, a nie podklasę BinaryLogisticRegressionSummary. Dodatkowe metody uwidocznione przez BinaryLogisticRegressionSummary program nie będą działać w tym przypadku. (SPARK-31681)
W przypadku platformy Spark 3.0 pyspark.ml.param.shared.Has* kombinacje nie zapewniają już żadnych set*(self, value) metod ustawiania, należy użyć odpowiednich self.set(self.*, value) metod. Aby uzyskać szczegółowe informacje, zobacz SPARK-29093. (SPARK-29093)

Przewodnik programowania

Przewodnik po bibliotece Edukacja maszyny (MLlib)

SparkR

Optymalizacja strzałek w współdziałaniu platformy SparkR (SPARK-26759)
Ulepszenia wydajności za pomocą wektoryzowanego języka R gapply(), dapply(), createDataFrame, collect()
"Chętne wykonywanie" dla powłoki języka R, IDE (SPARK-24572)
R API for Power Iteration Clustering (SPARK-19827)

Zmiany zachowania w usłudze SparkR

Przewodnik migracji: SparkR (R na platformie Spark)

Przewodnik programowania

SparkR (R na platformie Spark).

GraphX

Przewodnik programowania: GraphX Programming Guide (Przewodnik programowania GraphX).

Przestarzałe elementy

Przestarzała obsługa języka Python 2 (SPARK-27884)
Wycofaj obsługę języka R < 3.4 (SPARK-26014)

Znane problemy

Analizowanie dnia roku przy użyciu litery wzorca "D" zwraca nieprawidłowy wynik, jeśli brakuje pola roku. Może się to zdarzyć w funkcjach SQL, takich jak to_timestamp analizowanie ciągu daty/godziny na wartości daty/godziny przy użyciu ciągu wzorca. (SPARK-31939)
Sprzężenie/okno/agregacja wewnątrz podzapytania może prowadzić do nieprawidłowych wyników, jeśli klucze mają wartości -0.0 i 0.0. (SPARK-31958)
Zapytanie okna może zakończyć się niepowodzeniem z niejednoznacznym błędem samosprzężenia nieoczekiwanie. (SPARK-31956)
Zapytania przesyłane strumieniowo za pomocą dropDuplicates operatora mogą nie być możliwe do ponownego uruchomienia przy użyciu punktu kontrolnego napisanego przez platformę Spark 2.x. (SPARK-31990)

Aktualizacje konserwacyjne

Zobacz Aktualizacje konserwacji środowiska Databricks Runtime 7.0.

Środowisko systemu

System operacyjny: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R w wersji 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Zainstalowane biblioteki języka Python

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	Kryptografii	2.8	Cycler	0.10.0
Cython	0.29.15	Dekorator	4.4.1	docutils	0.15.2
punkty wejścia	0.3	Idna	2.8	ipykernel	5.1.4
Ipython	7.12.0	ipython-genutils	0.2.0	Jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
Numpy	1.18.1	Pandas	1.0.1	parso	0.5.2
Patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
Pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
żądania	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
Sześć	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
Tornado	6.0.3	traitlety	4.3.3	nienadzorowane uaktualnienia	0.1
urllib3	1.25.8	Virtualenv	16.7.10	wcwidth	0.1.8
Koła	0.34.2

Zainstalowane biblioteki języka R

Biblioteki języka R są instalowane z migawki usługi Microsoft CRAN w wersji 2020-04-22.

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
askpass	1.1	assertthat	0.2.1	Backports	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bitowe	1.1-15.2	bit64	0.9-7	blob	1.2.1
rozruch	1.3-25	Napar	1.0-6	Miotła	0.5.6
obiekt wywołujący	3.4.3	caret	6.0-86	cellranger	1.1.0
chron	2.3-55	class	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
Kolorów	1.4-1	commonmark	1,7	— kompilator	3.6.3
config	0.3	covr	3.5.0	Pastel	1.3.4
Crosstalk	1.1.0.1	Curl	4.3	data.table	1.12.8
usługi Power BI	3.6.3	DBI	1.1.0	dbplyr	1.4.3
Desc	1.2.0	devtools	2.3.0	Szyfrowane	0.6.25
dplyr	0.8.5	DT	0,13	wielokropek	0.3.0
evaluate	0,14	fani	0.4.1	farver	2.0.3
szybka mapa	1.0.1	forcats	0.5.0	foreach	1.5.0
Zagranicznych	0.8-76	Forge	0.2.0	Fs	1.4.1
Generyczne	0.0.2	ggplot2	3.3.0	Gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	Globals	0.12.5
Kleju	1.4.0	Gower	0.2.1	grafika	3.6.3
grDevices	3.6.3	Siatki	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	Haven	2.2.0
wysoki	0,8	Hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	Ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Iteratory	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
Etykietowania	0.3	Później	1.0.0	Kraty	0.20-41
Lawy	1.6.7	opóźnienie	0.2.2	cykl życia	0.2.0
lubridate	1.7.8	magrittr	1.5	Markdown	1.1
MASSACHUSETTS	7.3-51.6	Macierz	1.2-18	zapamiętywanie	1.1.0
metody	3.6.3	mgcv	1.8-31	Mime	0,9
Metryki modelu	1.2.2.2	modeler	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	Filar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	Pochwały	1.0.0
prettyunits	1.1.1	Proc	1.16.2	processx	3.4.2
prodlim	2019.11.13	Postęp	1.2.2	Obietnice	1.1.0
Proto	1.0.0	Ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
przepisy	0.1.10	Rewanżu	1.0.1	rewanż2	2.1.1
Piloty	2.1.1	reprex	0.3.0	zmień kształt2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions (rversions)	2.0.1
rvest	0.3.5	Skale	1.1.0	selektor	0.4-2
sessioninfo	1.1.1	Kształt	1.4.4	Błyszczące	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
Przestrzennej	7.3-11	Splajnów	3.6.3	sqldf	0.4-11
KWADRAT	2020.2	Statystyki	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	Przetrwanie	3.1-12
sys	3.3	tcltk	3.6.3	NauczanieDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0,22	tools	3.6.3	usethis	1.6.0
utf8	1.1.4	narzędzia	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	wąs	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	Yaml	2.2.1

Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)

Identyfikator grupy	Identyfikator artefaktu	Wersja
Antlr	Antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-biblioteka-biblioteka	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	strumień	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-cieniowane	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	Kolega	1.3.4
com.fasterxml.jackson.core	adnotacje jackson	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.kofeina	Kofeiny	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	Guawa	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	Profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	parsery jednowołciowości	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metryki —rdzeń	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	serwlety metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.adnotacja	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	aktywacja	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
Log4j	apache-log4j-extras	1.2.17
Log4j	Log4j	1.2.17
net.razorvine	pirolit	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	tat	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	format strzałki	0.15.1
org.apache.arrow	strzałka w pamięci	0.15.1
org.apache.arrow	wektor strzałki	0.15.1
org.apache.avro	Avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	kurator-klient	2.7.1
org.apache.curator	struktura kuratora	2.7.1
org.apache.curator	przepisy kuratora	2.7.1
org.apache.derby	Derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	adnotacje hadoop	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	podkładki hive	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0 inkubacja
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	Bluszcz	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	podkładki orc-shim	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	kodowanie parquet	1.10.1.2-databricks4
org.apache.parquet	format parquet	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	prędkość	1.5
org.apache.xbean	xbean-asm7-cieniowany	4.15
org.apache.yetus	adnotacje odbiorców	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-kontynuacja	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	lokalizator hk2	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	moduł sprawdzania poprawności hibernacji	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	Podkładki	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	interfejs testowy	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark.spark	Nieużywane	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	trzydostępne dodatkowe	1.5.0
org.tukaani	Xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
Oro	Oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
Stax	stax-api	1.0.1
xmlenc	xmlenc	0.52

Share via

Databricks Runtime 7.0 (nieobsługiwane)

Nowe funkcje

Ulepszenia

Główne zmiany w bibliotece

Pakiety języka Python

Pakiety języka R

Biblioteki Java i Scala

Zmiany zachowania

Zmiany zachowania platformy Spark

Inne zmiany zachowania

Wycofywanie i usuwanie

Apache Spark

W tej sekcji:

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą

Najważniejsze informacje

Ulepszenia wydajności

Ulepszenia rozszerzalności

ulepszenia Połączenie or

Ulepszenia funkcji

Ulepszenia zgodności sql

Ulepszenia monitorowania i debugowania

Ulepszenia programu PySpark

Ulepszenia dokumentacji i pokrycia testów

Inne istotne zmiany

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą

Przewodniki programistyczne:

MLlib

Najważniejsze informacje

Zmiany zachowania dla biblioteki MLlib

Przewodnik programowania

SparkR

Zmiany zachowania w usłudze SparkR

Przewodnik programowania

GraphX

Przestarzałe elementy

Znane problemy

Aktualizacje konserwacyjne

Środowisko systemu

Zainstalowane biblioteki języka Python

Zainstalowane biblioteki języka R

Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)

Dodatkowe zasoby