정확한 데이터 일치 중요한 정보 유형 테스트

EDM(정확한 데이터 일치) SIT(중요한 정보 유형)가 생성되고 중요한 정보 테이블의 업로드 및 인덱싱이 완료되었는지 확인한 후 1시간 후에 준수 센터의 중요한 정보 유형 섹션에서 테스트 함수를 사용하여 검색하려는 정보를 검색하도록 테스트할 수 있습니다.

[! 참고:] 이미 생성된 EDM SIT의 변경 내용은 시스템 전체에 전파하는 데 다소 시간이 걸릴 수 있습니다. 검색 문제 해결을 위해 EDM 중요한 정보 유형을 변경하는 경우 테스트 함수를 사용하여 영향을 확인하기 전에 변경한 후 1시간 이상 기다려야 합니다.

규정 준수 센터에서 EDM SIT 테스트

  1. 준수 센터 > 데이터 분류 > 중요한 정보 유형을 엽니다.

  2. 목록에서 EDM SIT를 선택한 다음 플라이아웃 창에서 테스트를 선택합니다. 이 옵션은 중요한 정보 유형에만 있습니다.

  3. 검색하려는 데이터가 포함된 항목을 업로드합니다. 예를 들어 중요한 정보 테이블에 행의 하위 집합이 포함된 항목을 만듭니다. 스키마에서 구성 가능한 일치 기능을 사용하여 무시된 구분 기호를 정의한 경우 항목에 해당 구분 기호의 유무에 관계없이 예제가 포함되어 있는지 확인합니다.

  4. 파일을 업로드하고 스캔한 후 EDM SIT와 일치하는지 확인합니다.

  5. SIT의 Test 함수가 일치 항목을 검색하는 경우 잘리거나 잘못 추출하지 않는지 확인합니다. 예를 들어 검색해야 하는 전체 문자열의 부분 문자열만 추출하거나 여러 단어 문자열에서 첫 번째 단어만 선택하거나 추출에 추가 기호 또는 문자를 포함합니다. 정규식 언어 - 정규식 언어 참조에 대한 빠른 참조를 참조하세요.

  6. 또는 다음 PowerShell cmdlet을 사용할 수 있습니다.

Test-DataClassification  -ClassificationNames “[Your EDM sensitive info type]” -TexttoClassify “[your own text to scan for matches]” 

참고

EDM 중요한 정보 형식 또는 EDM 형식의 기반이 되는 기본 SIT를 만들거나 편집할 때 SIT 변경 후 수정된 모든 새 콘텐츠와 콘텐츠는 새 정의와 일치하는 텍스트에 대해 크롤링되지만 기존 콘텐츠는 수정되거나 다시 인덱싱될 때까지 크롤링되지 않습니다.

SharePoint 사이트 또는 라이브러리 또는 OneDrive에서 기존 콘텐츠를 강제로 다시 크롤링하려면 사이트, 라이브러리 또는 목록의 크롤링 및 다시 인덱싱을 수동으로 요청하는 지침에 따릅니다.

정보 보호 정책을 사용하여 EDM SIT 테스트

EDM SIT가 사용되는 위치와 정책에서 EDM SIT를 사용하여 프로덕션 환경에서 얼마나 정확한지 확인할 수 있습니다.

  1. 자동 레이블 지정 정책을 만들고 시뮬레이션 개요 에서 실행합니다.

  2. EDM SIT를 트리거하는 일부 콘텐츠와 EDM SIT를 트리거하지 않는 일부 콘텐츠를 정책이 모니터링하는 위치에 추가합니다.

  3. 항목 검토 탭을 열어 일치 항목을 확인합니다.

  4. 정책을 적절하게 조정합니다.

테스트 및 튜닝 결과에 만족하면 EDM 기반 사용자 지정 SIT는 다음과 같은 정보 보호 정책에 사용할 준비가 됩니다.

문제 해결 팁

일치하는 항목을 찾을 수 없는 경우 몇 가지 문제 해결 팁은 다음과 같습니다.

문제 문제 해결 팁
일치하는 항목을 찾을 수 없음 해시에 설명된 명령을 사용하여 중요한 데이터가 올바르게 업로드되었는지 확인하고 중요한 정보 유형과 일치하는 정확한 데이터를 위해 중요한 정보 원본 테이블을 업로드합니다.
일치하는 항목을 찾을 수 없음 각 패턴에서 기본 요소를 구성할 때 사용한 SIT를 테스트합니다. 그러면 SIT가 항목의 예제와 일치할 수 있음을 확인합니다. 잘못 정의된 SIT를 EDM 중요 정보 유형의 분류 요소로 사용하는 것이 EDM에서 검색 실패의 가장 일반적인 원인입니다.
EDM 형식의 기본 요소에 대해 선택한 SIT가 항목에서 일치 항목을 찾지 못하거나 예상보다 적은 일치 항목을 찾습니다. 콘텐츠에 있는 구분 기호 및 구분 기호를 지원하는지 확인합니다. 스키마에 정의된 무시된 구분 기호를 포함해야 합니다.
기본 요소 SIT는 항목에서 일치 항목을 찾지만 EDM SIT는 검색하지 않습니다. - REGEX 문에서 \s와 같은 공백 구분 기호 캡처 시작 또는 종료를 확인합니다. 공백은 데이터 테이블의 해시된 값과 일치하지 않습니다. 대신 \b와 같은 단어 구분 기호를 사용합니다.
- REGEX 문을 확인하여 부분 문자열뿐만 아니라 캡처하려는 전체 문자열을 캡처하는지 확인합니다. 예를 들어 전자 메일 주소 \b[a-zA-Z]{2,30}@[a-zA-Z]{2,20}에 대한 이 패턴입니다.[ a-zA-Z]{2,3}\b는 user@contoso.com 올바르게 일치하지만 불완전한 형식의 user@contoso.co.jp 캡처합니다.
기본 요소가 있고 보조 요소가 정의되지 않은 EDM SIT는 항목을 검색하지만 검색하지 않거나 기본 및 보조 요소가 필요할 때 예상보다 적은 일치 항목을 검색합니다. 보조 증명 정보에 사용되는 열의 값이 공백, 쉼표 또는 기타 단어 구분 기호를 포함하지 않는 단일 단어 또는 문자열로 구성되지 않은 경우 원하는 패턴(예: 대문자로 시작하는 고정된 연속 단어 수)을 따르는 여러 단어 문자열을 검색하도록 설계된 REGEX를 사용하는 중요한 정보 형식과 연결해야 합니다. 또는 해당 열의 모든 고유 값을 나열하는 키워드 사전입니다. 예를 들어 사용자의 도시 또는 거주지에 대한 추가 증거 열이 있는 경우 테이블의 모든 고유한 도시 이름이 포함된 목록을 만들고 이를 사용하여 사전 기반 중요한 정보 유형을 만들 수 있습니다. XML에서 EDM SIT 정의를 내보내고 편집하여 이 SIT를 EDM 중요 정보 형식의 해당 열에 대한 분류 요소로 사용합니다. 수동으로 규칙 패키지 만들기를 참조하세요.
SIT 테스트 함수는 일치하는 항목을 전혀 검색하지 않습니다. 선택한 SIT에 추가 키워드 또는 기타 유효성 검사에 대한 요구 사항이 포함되어 있는지 확인합니다. 기본 제공 SIT의 경우 중요한 정보 형식 엔터티 정의를 참조하여 각 형식을 일치시키는 데 필요한 최소 요구 사항을 확인합니다.
테스트 기능이 작동하지만 DLP 또는 자동 레이블 지정 규칙에서 SharePoint 또는 OneDrive 항목이 검색되지 않습니다. 일치하는 문서가 콘텐츠 탐색기에 표시되는지 확인합니다. 해당 항목이 없는 경우 중요한 정보 형식을 변경한 후에 만든 콘텐츠만 일치 항목으로 표시됩니다. 기존 항목이 표시되도록 사이트 및 라이브러리를 다시 크롤링해야 합니다. SharePoint 및 OneDrive 다시 크롤링에 대한 자세한 내용은 사이트, 라이브러리 또는 목록의 크롤링 및 다시 인덱싱을 수동으로 요청 하세요.
여러 일치 항목이 필요한 DLP 또는 자동 레이블 지정 규칙은 트리거되지 않습니다. EDM 유형과 기본 중요한 정보 유형 모두에 대한 근접 요구 사항이 충족되는지 확인합니다. 예를 들어 기본 요소와 지원 키워드 사이의 최대 거리가 300자이지만 키워드가 긴 테이블의 첫 번째 행에만 있는 경우 일치하는 값의 처음 몇 행만 근접 요구 사항을 충족할 수 있습니다. SIT 정의를 수정하여 보다 완화된 근접 규칙을 지원하거나 추가 증명 정보 조건에 대해 문서 옵션의 아무 곳이나 사용합니다.
EDM 형식의 검색이 일관되지 않거나 불규칙합니다. EDM 형식의 기본 요소에 대한 기본으로 사용한 중요한 정보 형식이 불필요한 콘텐츠를 검색하지 않는지 확인합니다. 단어, 숫자 또는 모든 전자 메일 주소와 같이 관련이 없는 콘텐츠와 너무 많이 일치하는 SIT를 사용하면 서비스가 포화 상태가 되어 관련 일치 항목이 무시될 수 있습니다. 콘텐츠 탐색기에서 기본 요소에 사용한 중요한 형식과 일치하는 콘텐츠 조각의 수를 확인합니다.
SIT가 너무 많은 콘텐츠와 일치하는지 예측하려면 다음을 수행합니다.
- 콘텐츠 탐색기의 콘텐츠 항목 수를 중요한 형식이 생성된 후의 일 수로 나눈 값입니다.
- 일별 일치 항목 수가 수십만 또는 수백만 개 범위인 경우 기본 SIT가 너무 광범위할 수 있습니다. EDM 유형에 적합한 중요한 정보 유형을 선택하는 방법에 대한 권장 사항 및 모범 사례에 대한 정확한 데이터 일치 기반 중요한 정보 유형에 대해 알아봅니다.