Co je Photon?
Platí pro: Databricks SQL Databricks Runtime 9.1 a vyšší
Přečtěte si o výhodách spouštění úloh ve Photonu, o funkcích, které podporuje, a o tom, jak povolit nebo zakázat Photon. Photon je ve výchozím nastavení zapnutý ve službě Databricks SQL Warehouse a je kompatibilní s rozhraními Apache Spark API, takže funguje s vaším existujícím kódem.
K čemu se používá Photon?
Photon je vysoce výkonný vektorizovaný dotazovací modul nativní pro Azure Databricks, který spouští úlohy SQL a volání rozhraní DataFrame API rychleji, aby se snížily celkové náklady na každou úlohu.
Tady jsou klíčové funkce a výhody používání Photonu.
- Podpora operací SQL a ekvivalentních datových rámců s tabulkami Delta a Parquet
- Zrychlené dotazy, které zpracovávají data rychleji a zahrnují agregace a spojení.
- Rychlejší výkon při opakovaném přístupu k datům z mezipaměti disku.
- Robustní výkon prohledávání tabulek s mnoha sloupci a mnoha malými soubory
- Rychlejší delta a parquet psaní pomocí
UPDATE
, ,MERGE INTO
DELETE
,INSERT
a , aCREATE TABLE AS SELECT
, včetně širokých tabulek, které obsahují tisíce sloupců. - Nahradí spojení sort-merge za hash-joins.
Začínáme s Photon
Photon je ve výchozím nastavení povolený v clusterech s Modulem Databricks Runtime 9.1 LTS a novějším.
Pokud chcete photon v clusteru ručně zakázat nebo povolit, zaškrtněte při vytváření nebo úpravě clusteru políčko Použít akceleraci photon.
Pokud vytvoříte cluster pomocí rozhraní API clusterů, nastavte runtime_engine
na PHOTON
hodnotu .
Typy instancí
Photon podporuje řadu typů instancí na ovladačích a pracovních uzlech. Typy instancí Photon spotřebovávají jednotky DBU jinou rychlostí než stejný typ instance, na kterém běží modul runtime bez photon. Další informace o instancích Photon a spotřebě DBU najdete na stránce s cenami Azure Databricks.
Operátory, výrazy a datové typy
Následují operátory, výrazy a datové typy, které Photon pokrývá.
Operátory
- Skenování, filtrování, projekt
- Hash Aggregate/Join/Shuffle
- Spojení vnořené smyčky
- Anti join pracující s hodnotou null
- Union, Expand, ScalarSubquery
- Jímka pro zápis Delta/Parquet
- Sort
- Funkce Window
Výrazy
- Porovnání / logika
- Aritmetika / matematika (většina)
- Podmíněné (IF, CASE atd.)
- Řetězec (běžné)
- Vrhá
- Agregace (nejběžnější)
- Datum a časové razítko
Datové typy
- Bajt/ Krátký/Int/Long
- Boolean
- Řetězec/binární
- Desetinné číslo
- Plovoucí/dvojitá
- Datum a časové razítko
- Struktura
- Pole
- Mapovat
Funkce, které vyžadují Photon
Níže jsou uvedené funkce, které vyžadují Photon.
- Prediktivní vstupně-výstupní operace pro čtení a zápis Podívejte se, co je prediktivní vstupně-výstupní operace?
- Geoprostorové výrazy H3 Viz geoprostorové funkce H3.
- Dynamické vyřezávání souborů Viz Dynamické vyřezávání souborů.
Omezení
- Strukturované streamování: Photon v současné době podporuje bezstavové streamování pomocí Delta, Parquet, CSV a JSON. Při zápisu do jímky Delta nebo Parquet se podporuje bezstavové streamování Kafka a Kinesis.
- Photon nepodporuje UDF ani rozhraní RDD API.
- Photon nemá vliv na dotazy, které se obvykle spouštějí za méně než dvě sekundy.
Funkce, které Photon nepodporuje, fungují stejně, jako by fungovaly s modulem Databricks Runtime.