다음을 통해 공유


정확한 데이터 일치 기반 중요한 정보 유형에 대한 원본 데이터 내보내기

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 규정 준수 포털 평가판 허브에서 지금 시작하세요. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

적용 대상

중요한 데이터 테이블은 문서의 콘텐츠를 비교하여 중요한 데이터를 식별하는 값 행이 포함된 텍스트 파일입니다. 이러한 값은 개인 식별 가능한 정보, 제품 레코드 또는 콘텐츠에서 검색하고 보호하려는 텍스트 형식의 기타 중요한 데이터일 수 있습니다.

테이블의 데이터를 지원되는 형식 중 하나로 내보내면 EDM 스키마를 만들 수 있습니다.

EDM 중요 형식 정의

EDM 중요한 형식을 정의할 때 가장 중요한 결정 중 하나는 기본 필드인 필드를 정의하는 것입니다. 기본 필드는 검색 가능한 패턴을 따르고 EDM 스키마에서 검색 가능한 필드(열)로 정의되어야 합니다. 보조 필드는 기본 필드와 일치하는 모든 텍스트와 비교되므로 패턴을 따를 필요가 없습니다.

다음 규칙을 사용하여 기본 필드로 사용할 열을 결정할 수 있습니다.

  • 데이터를 둘러싼 다른 중요한 데이터의 존재와 관계없이 중요한 데이터 테이블의 필드와 일치하는 단일 값이 있는지를 기반으로 중요한 데이터를 검색해야 하는 경우 해당 열은 EDM SIT의 기본 요소로 정의되어야 합니다.
  • 중요한 데이터 테이블의 여러 필드 조합을 콘텐츠에서 검색해야 하는 경우 대부분의 이러한 조합에 공통된 열을 식별하고 기본 요소로 지정합니다. 다른 필드의 조합을 보조 요소로 지정합니다.
  • 기본 요소로 사용하려는 열이 검색 가능한 패턴을 any text string 따르지 않거나 문서 또는 전자 메일의 큰 비율에 있는 검색 가능한 패턴을 따르지 않는 경우 다른 더 나은 구조화된 열을 기본 요소로 선택합니다.

예를 들어 , , date of birthaccount numberSocial Security Numberfull name이 있는 경우 이름과 성이 검색하려는 다양한 데이터 조합에 공통적인 열인 경우에도 이러한 문자열은 쉽게 식별할 수 있고 중요한 정보 형식으로 정의하기 어려울 수 있는 패턴을 따르지 않습니다. 다음과 같은 여러 가지 이유가 있습니다.

  • 일부 이름은 대문자로 시작하지 않을 수 있습니다.
  • 일부는 2개, 3개 이상의 단어/문자열로 구성될 수 있습니다.
  • 일부는 숫자 또는 알파벳이 아닌 다른 문자를 포함할 수 있습니다. 생년월일은 더 쉽게 식별할 수 있지만 모든 이메일과 대부분의 문서에는 적어도 하나의 날짜 DateOfBirth 가 포함되므로 필드도 좋은 후보가 아닙니다. 대신 기본 필드에 적합한 사회 보장 번호 및 계정 번호와 같은 필드를 사용합니다.

샘플 파일 템플릿

기본 필드를 더 쉽게 선택할 수 있도록 다음을 위한 몇 가지 샘플 파일 템플릿을 정리했습니다.

이러한 쉼표로 구분된 값(.csv) 파일은 해당 업계 수직에서 열 머리글로 가장 일반적으로 사용되는 값과 행의 Microsoft에서 생성된 가상 값입니다. 열 머리글을 사용하여 기본 필드를 결정할 수 있습니다. 가장 좋은 방법은 필요한 원본 데이터만 내보내는 것입니다. 열 머리글은 가장 관련성이 큰 필드를 제안합니다.

샘플 파일 템플릿을 사용하는 방법을 알아보려면 샘플 파일 템플릿을 사용하는 방법을 참조하세요.

중요한 데이터를.csv, .tsv 또는 파이프로 구분된 형식으로 저장

  1. 사용하려는 중요한 정보를 식별합니다. Microsoft Excel과 같은 앱으로 데이터를 내보내고 파일을 텍스트 파일로 저장합니다. 파일은 .csv (쉼표로 구분된 값), .tsv (탭으로 구분된 값) 또는 (|)(파이프로 구분된) 형식으로 저장할 수 있습니다. 데이터 값에 거리 주소와 같은 쉼표가 포함될 수 있는 경우 .tsv 형식을 사용하는 것이 좋습니다. 데이터 파일에는 최대 다음을 포함할 수 있습니다.

    • 최대 1억 개의 중요한 데이터 행
    • 데이터 원본당 최대 32개의 열(필드)
    • 검색 가능으로 표시된 최대 10개의 열(필드)
  2. 첫 번째 행에 EDM 기반 분류에 사용되는 필드의 이름이 포함되도록 .csv 또는 .tsv 파일의 중요한 데이터를 구성합니다. 파일에 "ssn", "birthdate", "firstname", "lastname"과 같은 필드 이름이 있을 수 있습니다. 열 머리글 이름에는 공백이나 밑줄이 포함될 수 없습니다. 예를 들어, 이 문서에서 사용하는 샘플 .csv 파일은 PatientRecords.csv라고 하며, 해당 열에는 PatientID, MRN, LastName, FirstName, SSN 등이 포함되어 있습니다.

  3. 중요한 데이터 필드의 형식에 주의하세요. 특히 콘텐츠에 쉼표가 포함될 수 있는 필드입니다. 예를 들어 값 "Seattle, WA"가 포함된 주소는 .csv 형식이 선택된 경우 두 개의 별도 필드로 구문 분석됩니다. 이를 방지하려면 .tsv 형식을 사용하거나 중요한 데이터 테이블의 큰따옴표로 값을 포함하는 쉼표를 둘러싸세요. 값이 포함된 쉼표에 공백도 포함된 경우 해당 형식과 일치하는 사용자 지정 SIT를 만들어야 합니다. 예를 들어 쉼표와 공백이 있는 여러 단어 문자열을 검색하는 SIT입니다.

다음 단계

또는

참고 항목