CACHE (Delta Lake на платформе Azure Databricks)

Кэширует данные, к которым обращается указанный простой SELECT запрос в разностном кэше. Можно выбрать подмножество столбцов для кэширования, предоставив список имен столбцов и выбрав подмножество строк, предоставив предикат. Это позволяет последующим запросам не проверять исходные файлы насколько это возможно. Эта конструкция применима только к Parquet таблицам. Представления также поддерживаются, но расширенные запросы ограничиваются простыми запросами, как описано выше.

Синтаксис

CACHE SELECT column_name[, column_name, ...] FROM table_identifier [ WHERE boolean_expression ]

Различия между кэшем RDD и кэшем ввода-вывода для модуля обработки записей см. в статье кэширование изменений и Apache Spark .

  • table_identifier
    • [database_name.] table_name: Имя таблицы, при необходимости дополненное именем базы данных.
    • delta.`<path-to-table>`: Расположение существующей разностной таблицы.

Примеры

CACHE SELECT * FROM boxes
CACHE SELECT width, length FROM boxes WHERE height=3