Eksportuj dane źródłowe dla dokładnego typu informacji poufnych opartych na dopasowaniu danych

Tabela danych poufnych to plik tekstowy zawierający wiersze wartości, z którymi będziesz porównywać zawartość w dokumentach w celu identyfikowania poufnych danych. Te wartości mogą być danymi osobowymi, rekordami produktów lub innymi poufnymi danymi w postaci tekstowej, które chcesz wykryć w zawartości i podjąć działania ochronne.

Po wyeksportowaniu danych w jednym z obsługiwanych formatów możesz kontynuować tworzenie schematu EDM.

Definiowanie typu wrażliwego na EDM

Podczas definiowania typu wrażliwego na EDM jedną z najważniejszych decyzji jest zdefiniowanie pól podstawowych. Pola podstawowe muszą być zgodne z wykrywalnym wzorcem i definiowane jako pola (kolumny) z możliwością wyszukiwania w schemacie EDM. Pola pomocnicze nie muszą być zgodne z żadnym wzorcem, ponieważ zostaną porównane ze wszystkimi tekstami otaczającymi dopasowania do pól podstawowych.

Te reguły ułatwiają określenie kolumn, których należy używać jako pól podstawowych:

  • Jeśli musisz wykryć poufne dane na podstawie obecności pojedynczej wartości pasującej do pola w poufnej tabeli danych, niezależnie od obecności innych poufnych danych otaczających tę kolumnę, ta kolumna musi być zdefiniowana jako podstawowy element dla typu EDM.
  • Jeśli wiele kombinacji różnych pól w poufnej tabeli danych musi zostać wykrytych w zawartości, zidentyfikuj kolumny, które są wspólne dla większości takich kombinacji, i określ je jako podstawowe elementy i kombinacje innych pól jako elementy pomocnicze.
  • Jeśli kolumna, której chcesz użyć jako pola podstawowego, nie jest zgodna z wykrywalnym wzorcem, takim jak dowolny ciąg tekstowy lub jest zgodna z wykrywalnymi wzorcami, które byłyby obecne w dużej części dokumentów lub wiadomości e-mail, spróbuj wybrać inne lepiej ustrukturyzowane kolumny jako elementy podstawowe.

Jeśli na przykład masz kolumny full name, , date of birth``account number, i Social Security Number, nawet jeśli pierwszą i ostatnią nazwą są kolumny, które będą wspólne dla różnych kombinacji danych, które chcesz wykryć, takie ciągi nie są zgodne z łatwo rozpoznawalnymi wzorcami i mogą być trudne do zdefiniowania jako typ informacji poufnych. Dzieje się tak, ponieważ niektóre nazwy mogą nawet nie zaczynać się wielkimi literami, mogą być tworzone przez dwa, trzy lub więcej słów, a nawet mogą zawierać cyfry lub inne znaki nie alfabetyczne. Datę urodzenia można łatwiej zidentyfikować, ale ponieważ każda wiadomość e-mail i większość dokumentów będzie zawierać co najmniej jedną datę, nie jest również dobrym kandydatem. Numery ubezpieczenia społecznego i numery kont są dobrymi kandydatami do użycia jako pole podstawowe.

Zapisywanie poufnych danych w formacie .csv, tsv lub rozdzielanym potokami

  1. Zidentyfikuj informacje poufne, których chcesz użyć. Wyeksportuj dane do aplikacji, takiej jak Microsoft Excel, i zapisz plik w pliku tekstowym. Plik można zapisać w formacie .csv (wartości rozdzielane przecinkami), tsv (wartości rozdzielone tabulatorami) lub rozdzielanych potokami (|). Format tsv jest zalecany w przypadkach, gdy wartości danych mogą zawierać przecinki, takie jak adresy ulic. Plik danych może zawierać maksymalnie:

    • Maksymalnie 100 milionów wierszy poufnych danych
    • Maksymalnie 32 kolumny (pola) na źródło danych
    • Maksymalnie 5 kolumn (pól) oznaczonych jako możliwe do wyszukiwania
  2. Ustrukturyzuj dane poufne w pliku .csv lub tsv, tak aby pierwszy wiersz zawierał nazwy pól używanych do klasyfikacji opartej na rozwiązaniu EDM. W pliku mogą znajdować się nazwy pól, takie jak "ssn", "birthdate", "firstname", "lastname". Nazwy nagłówków kolumn nie mogą zawierać spacji ani podkreślenia. Przykładowy plik .csv używany w tym artykule nosi nazwę PatientRecords.csv, a jego kolumny to PatientID, MRN, LastName, FirstName, SSN i inne.

  3. Zwróć uwagę na format pól danych poufnych; w szczególności pola, które mogą zawierać przecinki w ich zawartości. Na przykład adres ulicy zawierający wartość "Seattle,WA" zostanie przeanalizowany jako dwa oddzielne pola podczas analizowania, jeśli wybrano format .csv. Aby tego uniknąć, użyj formatu tsv lub otoczył przecinek zawierający wartości podwójnym cudzysłowem w tabeli danych poufnych. Jeśli przecinki zawierające wartości zawierają również spacje, musisz utworzyć niestandardowy interfejs SIT zgodny z odpowiednim formatem. Na przykład sit, który wykrywa ciąg wielosłowny z przecinkami i spacjami w nim.

Następny krok

Zobacz też