Einhaltung von DSGVO und CCPA mit Delta Lake

In diesem Artikel wird beschrieben, wie Sie Delta Lake in Azure Databricks verwenden können, um die Konformität mit der Datenschutz-Grundverordnung (DSGVO) und dem California Consumer Privacy Act für Ihren Data Lake zu verwalten. Compliance erfordert häufig punktuelle Löschungen oder das Löschen einzelner Datensätze innerhalb einer umfangreichen Datensammlung. Delta Lake beschleunigt punktuelle Löschungen in großen Data Lakes mit ACID-Transaktionen. Dadurch können Sie personenbezogene Informationen (personally identifiable information, PII) finden und löschen, um auf DSGVO- oder CCPA-bezogene Anfragen zu reagieren.

Planen Ihres Datenmodells für Compliance

Die Modellierung Ihrer Daten für Compliance ist ein wichtiger Schritt für den Umgang mit personenbezogenen Informationen. Je nach Anforderungen Ihrer Datenconsumer gibt es verschiedene mögliche Ansätze.

Ein gängiger Ansatz ist die Pseudonymisierung oder die reversible Tokenisierung persönlicher Informationselemente (Kennungen) in Form von Schlüsseln (Pseudonyme), die nicht extern identifiziert werden können. Compliance durch Pseudonymisierung muss sorgfältig geplant werden – einschließlich folgender Aspekte:

  • Speicherung von Informationen in einer Weise, die nicht mit Bezeichnern, sondern mit Pseudonymen verknüpft ist
  • Erzwingung strenger Richtlinien für den Zugriff und die Verwendung von Daten, die die Kennungen und Pseudonyme kombinieren
  • Pipelines oder Speicherrichtlinien zum Entfernen von Rohdaten
  • Logik zum Suchen und Löschen der Verknüpfung zwischen den Pseudonymen und Bezeichnern

Vereinfachung punktueller Löschungen durch Delta Lake

Delta Lake verfügt über zahlreiche integrierte Optimierungen zum Überspringen von Daten. Zur Beschleunigung punktueller Löschungen empfiehlt Databricks die Verwendung der Z-Reihenfolge für Felder, die im Rahmen von DELETE-Vorgängen verwendet werden.

Delta Lake behält den Tabellenverlauf bei und stellt ihn für Zeitpunktabfragen und Rollbacks zur Verfügung. Mit der Funktion VACUUM werden Datendateien entfernt, auf die nicht mehr von einer Delta-Tabelle verwiesen wird und deren Alter einen angegebenen Schwellenwert für die Datenaufbewahrung übersteigt. Dadurch werden die Daten endgültig gelöscht. Weitere Informationen zu Standardeinstellungen und Empfehlungen finden Sie unter Arbeiten mit Delta Lake-Tabellenverlauf.