Foton

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Photon to natywny zwektualizowany aparat zapytań na komputerze Azure Databricks napisany w taki sposób, aby był bezpośrednio zgodny z interfejsami API Apache Spark, dzięki czemu działa z istniejącym kodem. Opracowano go w języku C++, aby korzystać z nowoczesnego sprzętu, i wykorzystuje najnowsze techniki przetwarzania zapytań wektorowych, aby wykorzystać równoległość na poziomie danych i instrukcji w procesorach CPU, zwiększając wydajność rzeczywistych danych i aplikacji — wszystko natywnie na data lake. Photon jest częścią środowiska uruchomieniowego o wysokiej wydajności, które uruchamia istniejące wywołania interfejsu API SQL i DataFrame oraz zmniejsza całkowity koszt na obciążenie.

Aktywacja photon zależy od tego, czy używasz klastrów Azure Databricks, czy SQL końcowych usługi Databricks.

Azure Databricks klastrów

Aby uzyskać dostęp do aplikacji Photon w klastrach usługi Azure Databricks, podczas tworzenia klastra musisz jawnie wybrać środowisko uruchomieniowe zawierające program Photon przy użyciu interfejsu użytkownika lub interfejsów API (interfejsAPI 2.0 klastrów i interfejs API zadań 2.1,określając składnię ). Photon jest dostępny dla klastrów z systemem Databricks Runtime w wersji 8.3 lub wersji 8.3.

Photon obsługuje ograniczony zestaw typów wystąpień w węzłach sterownika i procesu roboczego. Typy wystąpień Photon zużywają bazy danych z inną szybkością niż ten sam typ wystąpienia, w których działa środowisko uruchomieniowe inne niż Photon. Aby uzyskać więcej informacji na temat wystąpień photon i użycia dbu, zobacz Azure Databricks cennika.

Punkty końcowe SQL Databricks

Program Photon jest domyślnie włączony w SQL końcowych usługi Databricks. Możesz potwierdzić, że program Photon jest włączony dla punktu końcowego SQL, klikając pozycję Punkty końcowe programu SQL na pasku bocznym, wybierając punkt końcowy i sprawdzając, czy wartość parametru Photon jest Endpoints Iconwłączona.

Zalety

Poniżej przedstawiono podsumowanie zalet photon:

  • Obsługuje SQL i równoważne operacje ramki danych względem tabel Delta i Parquet.
  • Oczekiwano przyspieszenia zapytań, które przetwarzają znaczną ilość danych (100 GB+) i obejmują agregacje i sprzężenia.
  • Wyższa wydajność w przypadku wielokrotnego dostępu do danych z pamięci podręcznej usługi Delta.
  • Bardziej niezawodna wydajność skanowania tabel z wieloma kolumnami i wieloma małymi plikami.
  • Szybsze zapisywanie funkcji Delta i Parquet przy użyciu , , , i , szczególnie w przypadku szerokich tabel UPDATEDELETEMERGE INTOINSERTCREATE TABLE AS SELECT (od setek do tysięcy kolumn).
  • Zastępuje sprzężenia sort-merge sprzężeniami skrótu.

Ograniczenia

  • Działa w tabelach Delta i Parquet tylko w przypadku odczytu i zapisu.
  • Nie obsługuje operatorów okien i sortowania
  • Nie obsługuje przesyłania strumieniowego ze strukturą platformy Spark.
  • Nie obsługuje UDF.
  • Nie oczekiwano ulepszenia zapytań krótko działających (2 sekundy), na przykład zapytań < względem małych ilości danych.

Funkcje, które nie są obsługiwane przez program Photon, działają tak samo jak Databricks Runtime; Nie ma żadnych korzyści z wydajności dla tych funkcji.