정확한 데이터 일치 기반 중요한 정보 유형에 대한 원본 데이터 내보내기
중요한 데이터 테이블은 중요한 데이터를 식별하기 위해 문서의 콘텐츠를 비교할 값 행이 포함된 텍스트 파일입니다. 이러한 값은 콘텐츠에서 검색하고 보호 조치를 취하려는 텍스트 형식의 개인 식별 정보, 제품 레코드 또는 기타 중요한 데이터일 수 있습니다.
지원되는 형식 중 하나로 데이터를 내보낸 후에는 EDM 스키마 만들기를 진행할 수 있습니다.
EDM 중요 형식 정의
EDM 중요한 형식을 정의할 때 가장 중요한 결정 중 하나는 기본 필드가 될 필드를 정의하는 것입니다. 기본 필드는 검색 가능한 패턴을 따르고 EDM 스키마에서 검색 가능한 필드(열)로 정의되어야 합니다. 보조 필드는 기본 필드와 일치하는 모든 텍스트와 비교되므로 패턴을 따를 필요가 없습니다.
다음 규칙을 사용하여 기본 필드로 사용할 열을 결정할 수 있습니다.
- 중요한 데이터 테이블의 필드와 일치하는 단일 값의 존재에 따라 중요한 데이터를 검색해야 하는 경우 해당 데이터를 둘러싼 다른 중요한 데이터가 있는지와 관계없이 해당 열은 EDM 형식의 기본 요소로 정의되어야 합니다.
- 중요한 데이터 테이블의 여러 필드 조합을 콘텐츠에서 검색해야 하는 경우 대부분의 조합에 공통된 열을 식별하고 기본 요소로 지정하고 다른 필드의 조합을 보조 요소로 지정합니다.
- 기본 필드로 사용하려는 열이 텍스트 문자열과 같이 검색 가능한 패턴을 따르지 않거나 많은 문서 또는 전자 메일에 있는 검색 가능한 패턴을 따르는 경우 다른 더 나은 구조화된 열을 기본 요소로 선택해 보세요.
예를 들어 열full name, date of birth``account number성 및 Social Security Number성이 검색하려는 다양한 데이터 조합에 공통적인 열인 경우에도 이러한 문자열은 쉽게 식별할 수 있는 패턴을 따르지 않으며 중요한 정보 형식으로 정의하기 어려울 수 있습니다. 일부 이름은 대문자로 시작하지 않을 수도 있고, 2개, 3개 이상의 단어로 구성될 수 있으며 숫자 또는 다른 사전순 문자를 포함할 수도 있기 때문입니다. 생년월일을 더 쉽게 식별할 수 있지만 모든 전자 메일과 대부분의 문서에는 적어도 하나의 날짜가 포함되므로 좋은 후보가 아닙니다. 사회 보장 번호와 계정 번호는 기본 필드로 사용하기에 적합한 후보입니다.
중요한 데이터를 .csv, .tsv 또는 파이프로 구분된 형식으로 저장
사용하려는 중요한 정보를 식별합니다. 데이터를 Microsoft Excel과 같은 앱으로 내보내고 파일을 텍스트 파일에 저장합니다. 파일은 .csv(쉼표로 구분된 값), .tsv(탭으로 구분된 값) 또는 파이프로 구분된(|) 형식으로 저장할 수 있습니다. 데이터 값에 거리 주소와 같은 쉼표가 포함될 수 있는 경우 .tsv 형식을 사용하는 것이 좋습니다. 데이터 파일에는 최대 다음을 포함할 수 있습니다.
- 최대 1억 개의 중요한 데이터 행
- 데이터 원본당 최대 32개의 열(필드)
- 검색 가능으로 표시된 최대 5개의 열(필드)
첫 번째 행에 EDM 기반 분류에 사용되는 필드의 이름이 포함되도록 .csv 또는 .tsv 파일에서 중요한 데이터를 구성합니다. 파일에 "ssn", "birthdate", "firstname", "lastname"과 같은 필드 이름이 있을 수 있습니다. 열 머리글 이름에는 공백이나 밑줄이 포함될 수 없습니다. 예를 들어, 이 문서에서 사용하는 샘플 .csv 파일은 PatientRecords.csv 라고 하며, 해당 열에는 PatientID, MRN, LastName, FirstName, SSN 등이 포함되어 있습니다.
중요한 데이터 필드의 형식에 주의하세요. 특히 콘텐츠에 쉼표가 포함될 수 있는 필드입니다. 예를 들어 .csv 형식을 선택한 경우 구문 분석할 때 "Seattle,WA" 값이 포함된 거리 주소가 두 개의 별도 필드로 구문 분석됩니다. 이를 방지하려면 .tsv 형식을 사용하거나 중요한 데이터 테이블의 큰따옴표로 값을 포함하는 쉼표를 둘러싸세요. 값이 포함된 쉼표에 공백도 포함된 경우 해당 형식과 일치하는 사용자 지정 SIT를 만들어야 합니다. 예를 들어 쉼표와 공백이 있는 여러 단어 문자열을 검색하는 SIT입니다.