Foton

Belangrijk

Deze functie is beschikbaar als openbare preview.

Photon is de systeemeigen query-engine voor vectoren op Azure Databricks, die is geschreven om direct compatibel te zijn met Apache Spark API's, zodat het werkt met uw bestaande code. Het is ontwikkeld in C++ om te profiteren van moderne hardware en maakt gebruik van de nieuwste technieken in de verwerking van vectorquery's om te profiteren van parallelle uitvoering op gegevens- en instructieniveau in CPU's, waardoor de prestaties van gegevens en toepassingen in de echte wereld worden verbeteren, allemaal systeemeigen op uw data lake. Photon maakt deel uit van een krachtige runtime die uw bestaande SQL- en DataFrame-API-aanroepen sneller wordt uitgevoerd en uw totale kosten per workload verlaagt.

De activering van fotonen is afhankelijk van het gebruik van Azure Databricks-clusters of Databricks SQL eindpunten.

Azure Databricks clusters

Als u toegang wilt krijgen tot Photon op Azure Databricks-clusters, moet u expliciet een runtime met Photon selecteren wanneer u het cluster maakt, met behulp van de gebruikersinterface of de API's(Clusters-API en Taken-API),die u opgeeft met behulp van de spark_version syntaxis 8.3.x-photon-scala2.12 . Photon is beschikbaar voor clusters met Databricks Runtime 8.3 en Databricks Runtime 8.3 Photon en hoger.

Photon ondersteunt een beperkte set instantietypen op de stuurprogramma- en werkknooppunten. Typen photon-exemplaren verbruiken DDE's met een andere snelheid dan hetzelfde exemplaartype waarop de niet-Photon-runtime wordt uitgevoerd. Zie de pagina met prijzen voor Azure Databricks meer informatie over photon-exemplaren en DBU-verbruik.

Databricks SQL eindpunten

Photon is standaard ingeschakeld in Databricks SQL eindpunten. U kunt controleren of Photon is ingeschakeld voor een SQL-eindpunt door te klikken op eindpuntpictogram SQL Eindpunten in de zijbalk, het eindpunt te selecteren en te controleren of de waarde voor  Photon Op is.

Voordelen

Hier volgt een overzicht van de voordelen van Photon:

  • Ondersteunt SQL en equivalente DataFrame-bewerkingen voor Delta- en Parquet-tabellen.
  • Naar verwachting worden query's versneld die een aanzienlijke hoeveelheid gegevens verwerken (100 GB+) en aggregaties en joins bevatten.
  • Snellere prestaties wanneer gegevens herhaaldelijk worden gebruikt vanuit de Delta-cache.
  • Krachtigere scanprestaties voor tabellen met veel kolommen en veel kleine bestanden.
  • Sneller schrijven van Delta en Parquet met behulp van , , , en , met name voor UPDATE DELETE brede tabellen MERGE INTO INSERT CREATE TABLE AS SELECT (honderden tot duizenden kolommen).
  • Vervangt sort-merge joins door hash-joins.

Beperkingen

  • Werkt alleen voor Delta- en Parquet-tabellen voor zowel lezen als schrijven.
  • Biedt geen ondersteuning voor venster- en sorteeroperators
  • Biedt geen ondersteuning voor Spark Structured Streaming.
  • Biedt geen ondersteuning voor UF's.
  • Er wordt niet verwacht dat kortlopende query's worden verbeterd (<2 seconden), bijvoorbeeld query's op kleine hoeveelheden gegevens.

Functies die niet worden ondersteund door Photon, worden op dezelfde manier uitgevoerd als bij Databricks Runtime; Er is geen prestatievoordeel voor deze functies.