CACHE SELECT (Delta Lake på Azure Databricks)

Cachelagrar data som nås av den angivna enkla SELECT frågan i SELECT Du kan välja en delmängd kolumner som ska cachelagras genom att ange en lista med kolumnnamn och välja en delmängd av rader genom att ange ett predikat. Detta gör att efterföljande frågor kan undvika att genomskanna de ursprungliga filerna så mycket som möjligt. Den här konstruktionen gäller endast för Parquet-tabeller. Vyer stöds också, men de expanderade frågorna är begränsade till enkla frågor, enligt beskrivningen ovan.

Syntax

CACHE SELECT column_name[, column_name, ...] FROM table_identifier [ WHERE boolean_expression ]

Se Delta och Apache Spark cachelagring för skillnaderna mellan Delta-cachen och Apache Spark cacheminnet.

  • table_identifier
    • [database_name.] table_name: Ett tabellnamn, valfritt kvalificerat med ett databasnamn.
    • delta.`<path-to-table>`: Platsen för en befintlig Delta-tabell.

Exempel

CACHE SELECT * FROM boxes
CACHE SELECT width, length FROM boxes WHERE height=3