Exportera källdata för exakt datamatchning baserat på typ av känslig information
Den känsliga datatabellen är en textfil som innehåller rader med värden som du jämför innehåll i dina dokument med för att identifiera känsliga data. Dessa värden kan vara personligt identifierbar information, produktposter eller andra känsliga data i textformat som du vill identifiera i innehåll och vidta skyddsåtgärder.
När data har exporterats i något av de format som stöds kan du fortsätta med skapandet av ett EDM-schema.
Definiera din EDM-känslig typ
När du definierar EDM-känslig typ är ett av de viktigaste beslut vilka fält som ska vara primära fält. Primära fält måste följa ett sökbart mönster och definieras som sökbara fält (kolumner) i EDM-schemat. Sekundära fält behöver inte följa något mönster eftersom de jämförs mot all text omgivande matchningar med de primära fälten.
Använd de här reglerna för att avgöra vilka kolumner du ska använda som primära fält:
- Om du måste identifiera känsliga data baserat på att ett enda värde matchar ett fält i tabellen för känsliga data, oavsett om det finns andra känsliga data som omger den, måste den kolumnen definieras som ett primärt element för en EDM-typ.
- Om flera kombinationer av olika fält i tabellen med känsliga data måste identifieras i innehåll identifierar du de kolumner som är gemensamma för de flesta sådana kombinationer och anger dem som primära element och kombinationer av andra fält som sekundära element.
- Om en kolumn som du vill använda som ett primärt fält inte följer ett möjligt mönster, t.ex. en textsträng eller följer de mönster som kan finnas någonstans i en stor procentandel av dokument eller e-postmeddelanden, kan du försöka välja andra bättre strukturerade kolumner som primära element.
Om du till exempel har kolumnerna , , och , även om för- och efternamnen är de kolumner som är gemensamma för de olika kombinationer av data som du vill identifiera, följer inte sådana strängar lätt identifierbara mönster och kan vara svåra att definiera som en typ av full name date of birth känslig account number Social Security Number information. Det beror på att vissa namn kanske inte ens börjar med versaler. De kan vara format utformade med två, tre eller fler ord och kan till och med innehålla siffror eller andra icke-alfabetiska tecken. Det är lättare att identifiera födelsedatumet, men eftersom alla e-postmeddelanden och de flesta dokument innehåller minst ett datum är det inte heller en bra kandidat. Personnummer och kontonummer är bra att använda som primärt fält.
Spara känsliga data i .csv, .tsv eller röravgränsat format
Identifiera den känsliga information du vill använda. Exportera data till ett program, till exempel Microsoft Excel, och spara filen i en textfil. Filen kan sparas i .csv (kommaavgränsade värden), .tsv (tabbavgränsade värden) eller pipe-avgränsade (|) format. TSV-formatet rekommenderas i fall där datavärdena kan innehålla kommatecken, till exempel gatuadresser. Datafilen kan innehålla högst:
- 100 miljoner rader med känsliga data
- 32 kolumner (fält) per datakälla
- 5 kolumner (fält) markerade som sökbara
Strukturera känsliga data i .csv- eller .tsv-filen så att den första raden innehåller namnen på de fält som används för EDM-baserad klassificering. I filen kan du ha fältnamn som "ssn", "födelsedatum", "förnamn", "efternamn". Kolumnrubriknamn får inte innehålla blanksteg eller understreck. Exempelfilen i CSV-format som vi använder i den här artikeln heter till exempel PatientRecords.csv, och innehåller kolumnerna PatientID, MRN, LastName, FirstName, SSN med flera.
Var uppmärksam på formatet för fälten med känsliga data. I synnerhet fält som kan innehålla kommatecken i innehållet, t.ex. en gatuadress som innehåller värdet "Seattle,WA" kommer att tolkas som två separata fält om .csv format väljs. Du kan undvika detta genom att använda .tsv-formatet eller omgivet av kommatecken som innehåller värden med dubbla citattecken i tabellen över känsliga data. Om kommatecken som innehåller värden också innehåller blanksteg, måste du skapa en anpassad SIT som matchar motsvarande format. Till exempel en SIT som identifierar flera ordsträngar med kommatecken och blanksteg.