Co je Photon?

Článek
03/01/2024

Platí pro: check marked yes Databricks SQL Databricks Runtime 9.1 a vyšší

Přečtěte si o výhodách spouštění úloh ve Photonu, o funkcích, které podporuje, a o tom, jak povolit nebo zakázat Photon. Photon je ve výchozím nastavení zapnutý ve službě Databricks SQL Warehouse a je kompatibilní s rozhraními Apache Spark API, takže funguje s vaším existujícím kódem.

K čemu se používá Photon?

Photon je vysoce výkonný vektorizovaný dotazovací modul nativní pro Azure Databricks, který spouští úlohy SQL a volání rozhraní DataFrame API rychleji, aby se snížily celkové náklady na každou úlohu.

Tady jsou klíčové funkce a výhody používání Photonu.

Podpora operací SQL a ekvivalentních datových rámců s tabulkami Delta a Parquet
Zrychlené dotazy, které zpracovávají data rychleji a zahrnují agregace a spojení.
Rychlejší výkon při opakovaném přístupu k datům z mezipaměti disku.
Robustní výkon prohledávání tabulek s mnoha sloupci a mnoha malými soubory
Rychlejší delta a parquet psaní pomocí UPDATE, , MERGE INTODELETE, INSERTa , a CREATE TABLE AS SELECT, včetně širokých tabulek, které obsahují tisíce sloupců.
Nahradí spojení sort-merge za hash-joins.

Začínáme s Photon

Photon je ve výchozím nastavení povolený v clusterech s Modulem Databricks Runtime 9.1 LTS a novějším.

Pokud chcete photon v clusteru ručně zakázat nebo povolit, zaškrtněte při vytváření nebo úpravě clusteru políčko Použít akceleraci photon.

Pokud vytvoříte cluster pomocí rozhraní API clusterů, nastavte runtime_engine na PHOTONhodnotu .

Typy instancí

Photon podporuje řadu typů instancí na ovladačích a pracovních uzlech. Typy instancí Photon spotřebovávají jednotky DBU jinou rychlostí než stejný typ instance, na kterém běží modul runtime bez photon. Další informace o instancích Photon a spotřebě DBU najdete na stránce s cenami Azure Databricks.

Operátory, výrazy a datové typy

Následují operátory, výrazy a datové typy, které Photon pokrývá.

Operátory

Skenování, filtrování, projekt
Hash Aggregate/Join/Shuffle
Spojení vnořené smyčky
Anti join pracující s hodnotou null
Union, Expand, ScalarSubquery
Jímka pro zápis Delta/Parquet
Sort
Funkce Window

Výrazy

Porovnání / logika
Aritmetika / matematika (většina)
Podmíněné (IF, CASE atd.)
Řetězec (běžné)
Vrhá
Agregace (nejběžnější)
Datum a časové razítko

Datové typy

Bajt/ Krátký/Int/Long
Boolean
Řetězec/binární
Desetinné číslo
Plovoucí/dvojitá
Datum a časové razítko
Struktura
Pole
Mapovat

Funkce, které vyžadují Photon

Níže jsou uvedené funkce, které vyžadují Photon.

Prediktivní vstupně-výstupní operace pro čtení a zápis Podívejte se, co je prediktivní vstupně-výstupní operace?
Geoprostorové výrazy H3 Viz geoprostorové funkce H3.
Dynamické vyřezávání souborů Viz Dynamické vyřezávání souborů.

Omezení

Strukturované streamování: Photon v současné době podporuje bezstavové streamování pomocí Delta, Parquet, CSV a JSON. Při zápisu do jímky Delta nebo Parquet se podporuje bezstavové streamování Kafka a Kinesis.
Photon nepodporuje UDF ani rozhraní RDD API.
Photon nemá vliv na dotazy, které se obvykle spouštějí za méně než dvě sekundy.

Funkce, které Photon nepodporuje, fungují stejně, jako by fungovaly s modulem Databricks Runtime.