GDPR och CCPA-efterlevnad med Delta Lake

Artikel
03/01/2024

Den här artikeln beskriver hur du kan använda Delta Lake på Azure Databricks för att hantera allmän dataskyddsförordning (GDPR) och kompatibilitet med California Consumer Privacy Act (CCPA) för din datasjö. Efterlevnad kräver ofta punktborttagning eller borttagning av enskilda poster i en stor datasamling. Delta Lake påskyndar borttagning av punkter i stora datasjöar med ACID-transaktioner, så att du kan hitta och ta bort personligt identifierbar information (PII) som svar på GDPR- eller CCPA-begäranden för konsumenter.

Planera din datamodell för efterlevnad

Att modellera dina data för efterlevnad är ett viktigt steg i hanteringen av PII. Det finns många gångbara metoder beroende på behoven hos dina datakonsumenter.

En metod som används ofta är pseudonymisering eller omvändbar tokenisering av personliga informationselement (identifierare) till nycklar (pseudonymer) som inte kan identifieras externt. Efterlevnad via pseudonymisering kräver noggrann planering, inklusive följande:

Lagring av information på ett sätt som är kopplat till pseudonymer snarare än identifierare.
Underhåll av strikta principer för åtkomst och användning av data som kombinerar identifierare och pseudonymer.
Pipelines eller lagringsprinciper för att ta bort rådata.
Logik för att hitta och ta bort kopplingen mellan pseudonymerna och identifierarna.

Så förenklar Delta Lake punktborttagningar

Delta Lake har många inbyggda optimeringar för datahoppning . För att påskynda punktborttagningar rekommenderar Databricks att du använder Z-ordning på fält som du använder under DELETE åtgärder.

Delta Lake behåller tabellhistoriken och gör den tillgänglig för frågor och återställningar till tidpunkt. Funktionen VACUUM tar bort datafiler som inte längre refereras till av en Delta-tabell och som är äldre än ett angivet tröskelvärde för kvarhållning, vilket permanent tar bort data. Mer information om standardvärden och rekommendationer finns i Arbeta med Delta Lake-tabellhistorik.

Planera din datamodell för efterlevnad

Så förenklar Delta Lake punktborttagningar

Ytterligare resurser