Osvědčené postupy pro vyřazení spravované tabulky Delta Lake

Bez ohledu na to, jak spravovanou tabulku vyřadíte, může trvat poměrně dlouhou dobu v závislosti na velikosti dat. V případě, že jsou v protokolech transakcí rozdílové a spravované tabulky Delta Lake obsahují velké množství metadat a můžou obsahovat duplicitní datové soubory. Pokud se rozdílová tabulka používala dlouhou dobu, může nashromáždit velmi velké množství dat.

V prostředí Azure Databricks existují dva způsoby, jak tabulky odstranit:

  • Spustí se DROP TABLE v buňce poznámkového bloku.
  • V uživatelském rozhraní klikněte na Odstranit .

I když můžete odstranit tabulky na pozadí, aniž by to ovlivnilo úlohy, je vždy dobré před spuštěním příkazu DROP na jakékoli tabulce spustit odstranění z a do vaku . Tím se zajistí, že se metadata a velikosti souborů vyčistí předtím, než spustíte vlastní odstranění dat.

Například pokud se pokoušíte odstranit tabulku rozdílů events , spusťte před spuštěním příkazu následující příkazy DROP TABLE :

  1. Spustit odstranění z: DELETE FROM events
  2. Spustit podtlak s intervalem nula: VACUUM events RETAIN 0 HOURS

Tyto dva kroky omezují množství metadat a počet nepotvrzených souborů, které by jinak zvýšily čas odstranění dat.