CACHE (Delta Lake op Azure Databricks)

Hiermee worden de gegevens die worden gebruikt door de opgegeven eenvoudige SELECT query in de Delta-cache in de cache opgeslagen. U kunt een subset van kolommen kiezen die in de cache moeten worden opgeslagen door een lijst met kolomnamen op te geven en een subset rijen te kiezen door een predicaat op te geven. Hierdoor kunnen volgende query's voorkomen dat de oorspronkelijke bestanden zo veel mogelijk worden gescand. Deze constructie is alleen van toepassing op Parquet-tabellen. Weergaven worden ook ondersteund, maar de uitgebreide query's zijn beperkt tot de eenvoudige query's, zoals hierboven beschreven.

Syntax

CACHE SELECT column_name[, column_name, ...] FROM table_identifier [ WHERE boolean_expression ]

Zie Delta en Apache Spark cacheopslag voor de verschillen tussen de Delta-cache en de Apache Spark cache.

  • table_identifier
    • [database_name.] table_name: Een tabelnaam, eventueel gekwalificeerd met een databasenaam.
    • delta.`<path-to-table>`: De locatie van een bestaande Delta-tabel.

Voorbeelden

CACHE SELECT * FROM boxes
CACHE SELECT width, length FROM boxes WHERE height=3