정확한 데이터 일치 중요한 정보 유형/규칙 패키지 만들기
규정 준수 센터에서 EDM 스키마 및 SIT 마법사를 사용하여 EDM (정확한 데이터 일치) 중요 정보 유형(SIT)을 만들거나 규칙 패키지 XML 파일을 수동으로 만들 수 있습니다. 또한 한 메서드를 사용하여 스키마를 만들고 나중에 다른 메서드를 사용하여 편집하여 둘 다 결합할 수도 있습니다.
EDM 기반 SITS 또는 해당 구현에 익숙하지 않은 경우 다음 사항을 숙지해야 합니다.
EDM 스키마 및 SIT 마법사 사용
이 마법사를 사용하여 SIT(중요한 정보 유형) 파일을 만들어 프로세스를 간소화할 수 있습니다.
EDM 중요 정보 유형은 하나 이상의 패턴으로 구성됩니다. 각 패턴은 문서 또는 전자 메일의 중요한 콘텐츠를 식별하는 데 사용할 증거(스키마의 필드)의 조합을 설명합니다.
필수 구성 요소
다음 문서의 단계를 수행합니다.
- 정확한 데이터 일치 기반 중요한 정보 유형에 대한 원본 데이터 내보내기
- 정확한 데이터 일치 기반 중요한 정보 유형에 대한 스키마 만들기
- 정확한 데이터 일치 기반 중요한 정보 유형에 대해 중요한 정보 원본 테이블을 해시하고 업로드합니다.
- 마법사를 사용하여 EDM 중요한 정보 유형을 만들든 PowerShell을 통해 규칙 패키지 XML 파일을 만들든, UI를 통해 사용자 지정 중요한 정보 유형을 만들고, 테스트하고, 배포할 수 있는 전역 관리자 또는 규정 준수 관리자 권한이 있어야 합니다. Office 365 관리자 역할에 대해 알아봅니다.
- 기본 요소의 중요한 정보 유형으로 사용할 기본 제공 SIT 중 하나를 식별합니다.
- 기본 제공 중요한 정보 형식이 선택한 열의 데이터와 일치하지 않는 경우 사용자 지정 중요한 정보 유형을 만들어야 합니다.
- 스키마의 기본 요소 열에 대해 무시된 구분 기호 옵션을 선택한 경우 만든 사용자 지정 SIT가 선택한 구분 기호의 유무에 관계없이 데이터와 일치하는지 확인합니다.
- 기본 제공 SIT를 사용하는 경우 선택하려는 문자열을 정확히 검색하고 주변 문자를 포함하지 않거나 중요한 정보 테이블에 저장된 대로 문자열의 유효한 부분을 제외하지 않도록 합니다.
준수 센터에서 중요한 정보 유형 엔터티 정의 및 사용자 지정 중요한 정보 유형 만들기를 참조하세요.
정확한 데이터 일치 스키마 및 중요한 정보 유형 패턴 마법사 사용
테넌트에 대한 Microsoft Purview 규정 준수 포털 데이터 분류 > 정확한 데이터 일치 로 이동합니다.
EDM 중요한 정보 유형 과 EDM 중요한 정보 유형 을 선택하고 중요한 정보 유형 구성 마법사를 선택합니다.
기존 EDM 스키마 선택을 선택하고 정확한 데이터 일치 기반 중요한 정보 형식에 대한 스키마 만들기에서 만든 스키마를 선택합니다.
다음 을 선택하고 패턴 생성 을 선택합니다.
신뢰 수준 및 기본 요소 를 선택합니다. 신뢰도 수준에 대한 자세한 내용은 중요한 정보 유형에 대한 자세한 내용을 참조하세요.
기본 요소의 중요한 정보 유형을 선택하여 문서의 텍스트를 기본 요소 필드의 모든 값과 비교할 텍스트를 정의합니다. 사용 가능한 중요한 정보 유형에 대한 자세한 내용은 중요한 정보 유형 엔티티 정의를 참조하세요.
중요
찾으려는 콘텐츠의 형식과 밀접하게 일치하는 중요한 정보 유형을 선택합니다. 모든 텍스트 문자열 또는 모든 숫자와 일치하는 것과 같이 불필요한 콘텐츠와 일치하는 중요한 정보 유형을 선택하면 시스템에 과도한 부하가 발생하여 중요한 정보가 누락될 수 있습니다.
지원 요소 및 일치 옵션을 선택합니다.
완료 및 다음 을 선택합니다.
원하는 신뢰 수준 및 문자 근접성 을 선택합니다. 이는 전체 EDM 중요 정보 형식의 기본값입니다.
EDM 중요한 정보 유형에 대한 추가 패턴을 만들려면 만들기 패턴을 선택합니다.
다음 을 선택하고 이름 과 관리자 설명 을 입력합니다.
검토하고 제출 을 선택합니다.
중요한 정보 유형 패턴 편집 또는 삭제
오픈 규정 준수 센터 > 데이터 분류 > 정확한 데이터가 일치합니다.
EDM 중요한 정보 유형을 선택합니다.
편집하려는 EDM SIT를 선택합니다.
플라이아웃에서 EDM 중요 정보 유형 편집 또는 EDM 중요 정보 유형 삭제 를 선택합니다.
특정 유형의 데이터 작업
성능상의 이유로 불필요한 일치 횟수를 최소화하는 패턴을 사용하는 것이 중요합니다. 예를 들어 정규식에 따라 중요한 정보 형식을 사용할 수 있습니다.
\b\w*\b
이는 문서 또는 전자 메일의 모든 개별 단어 또는 번호와 일치합니다. 이로 인해 서비스가 일치 항목으로 오버로드되고 실제 일치 검색이 누락됩니다. 보다 정확한 패턴을 사용하면 이러한 상황을 방지할 수 있습니다. 다음은 몇 가지 일반적인 데이터 형식에 적합한 구성을 식별하기 위한 몇 가지 권장 사항입니다.
전자 메일 주소: 전자 메일 주소는 쉽게 식별할 수 있지만 콘텐츠에서 매우 일반적이므로 기본 필드로 사용하는 경우 시스템에 상당한 부하가 발생할 수 있습니다. 보조 증거로만 사용합니다. 기본 증명 정보로 사용해야 하는 경우 논리를 사용하여 전자 메일의 필드 또는 To 해당 From 사용을 제외하는 사용자 지정 중요한 정보 유형을 정의하고 회사의 이메일 주소가 있는 항목을 제외하여 일치해야 하는 불필요한 문자열 수를 줄이도록 합니다.
전화 번호: 전화 번호는 국가 접두사, 지역 번호 및 구분 기호를 포함하거나 제외하는 다양한 형식으로 제공됩니다. 부하를 최소한으로 유지하면서 거짓 부정을 줄이려면 보조 요소로만 사용하고, 괄호 및 대시와 같은 모든 가능한 구분 기호를 제외하고, 중요한 데이터 테이블에 항상 전화 번호에 있는 부분만 포함합니다.
사람의 이름: 일반 단어와 구별하기 어렵기 때문에 정규식을 기반으로 하는 중요한 정보 유형을 이 EDM 유형의 분류 요소로 사용하는 경우 사용자의 이름을 기본 요소로 사용하지 마세요.
처리할 일치 항목을 많이 생성할 수 있는 프로젝트 코드 이름과 같이 특정 패턴으로 식별하기 어려운 기본 요소를 사용해야 하는 경우 EDM 형식의 분류 요소로 사용하는 중요한 정보 형식에 키워드를 포함해야 합니다. 예를 들어 일반 단어일 수 있는 프로젝트 코드 이름을 사용하는 경우 EDM 형식의 분류 요소로 사용되는 중요한 형식의 프로젝트 이름 정규식 기반 패턴과 근접한 추가 증명 정보로 단어를 project 사용할 수 있습니다. 또는 일반 사전을 기반으로 하는 중요한 형식을 EDM SIT의 분류 요소로 사용하는 것이 좋습니다.
숫자 문자열을 일치시키려고 할 때 숫자 수 또는 시작 숫자(알려진 경우)와 같은 허용되는 숫자 범위를 지정합니다. 비교적 유연한 숫자 범위와 일치해야 하는 경우 기본 SIT의 키워드를 사용하여 일치 항목 수를 줄일 수 있습니다. 예를 들어 7-11자리 숫자로 구성된 계정 번호를 일치시키려고 하면 필요한 추가 증명 정보로 SIT에 단어를 account``customer``acct. 추가합니다. 이렇게 하면 EDM에서 처리되는 일치 항목의 제한을 초과할 수 있는 불필요한 일치가 발생할 가능성이 줄어듭니다.
기본 요소로 사용해야 하는 필드가 많은 일치 항목을 발생시킬 수 있는 간단한 패턴을 따르고 중요한 정보 형식의 추가 증거로 키워드의 존재를 추가할 수 없는 경우 해당 패턴의 최소 발생 횟수를 요구할 수 있습니다. 예를 들어 다음 방법으로 정의된 사용자 지정 중요한 정보 유형을 사용하여 EDM과 일치시킬 잠재적인 5자리 숫자를 둘러싼 29개 이상의 다른 5자리 숫자를 검색할 수 있습니다.
<Entity id="98703510-18b3-43d4-961f-15317594beb7"
patternsProximity="300"
recommendedConfidence="85"
relaxProximity="false">
<Pattern confidenceLevel="85"
proximity="300">
<IdMatch idRef="MRN"/>
<Match idRef="30 AccountNrs"
minCount="30"
proximity="3000"
uniqueResults="true"/>
</Pattern>
</Entity>
<Regex id="30 AccountNrs">\d{5}</Regex>
경우에 따라 특정 계정을 식별하거나 기록상의 이유로 표준화된 패턴을 따르지 않는 ID 번호를 기록해야 할 수 있습니다. 예를 들어 동일한 Medical Record Numbers 조직 내에서 문자와 숫자의 다양한 순열로 구성될 수 있습니다. 처음에는 패턴을 식별하기 어려울 수 있지만 자세히 검사하면 잘못된 일치 항목의 수가 너무 많지 않으면서 모든 유효한 값을 설명하는 패턴의 범위를 좁힐 수 있습니다. 예를 들어 "모든 MRN은 길이가 7자 이상이고, 숫자 숫자가 두 개 이상 있고, 문자가 있으면 1자로 시작합니다."가 감지될 수 있습니다. 이러한 조건에 따라 정규식을 만들면 원하는 모든 값을 캡처하는 동안 불필요한 일치를 최소화할 수 있으며, 추가 분석을 통해 다양한 형식을 설명하는 별도의 패턴을 정의하여 정밀도를 높일 수 있습니다.
수동으로 규칙 패키지 만들기
이 절차에서는 규칙 패키지(유니코드 인코딩 사용)라는 XML 형식의 파일을 만든 다음 Security & Compliance PowerShell cmdlet을 사용하여 Microsoft Purview에 업로드하는 방법을 보여 줍니다.
참고
매핑하는 SIT가 여러 단어의 확증적 증거를 검색할 수 있는 경우 수동으로 만든 규칙 패키지에서 정의하는 보조 요소를 SIT에 매핑할 수 있습니다. 예를 들어, 해당 확증 증거 필드가 해당 패턴을 감지할 수 있는 SIT에 매핑되지 않은 경우 콘텐츠에서 필드 중 하나에 업로드된 용어 John Smith 와 별도로 비교 John 하고 Smith 찾을 수 있기 때문에 이름은 John Smith 보조 요소와 일치하지 않습니다.
Microsoft 365 테넌트에는 10개의 규칙 패키지가 제한됩니다. 규칙 패키지에는 임의의 수의 중요한 정보 유형이 포함될 수 있으므로 이 메서드를 사용하여 새 중요한 정보 유형을 정의할 때마다 새 규칙 패키지를 만들지 않도록 할 수 있습니다. 대신 기존 규칙 패키지를 내보내고 XML에 중요한 정보 형식을 추가한 후 다시 업로드할 수 있습니다.
다음 예제와 같이 in XML 형식(유니코드 인코딩 사용)에 규칙 패키지를 생성하세요. (여기에 있는 예제를 복사, 수정 및 사용할 수 있습니다.)
규칙 패키지를 설정할 때 .csv, .tsv 또는 파이프(|)로 구분된 중요한 정보 원본 테이블 파일 및 edm.xml 스키마 파일을 올바르게 참조해야 합니다. (여기에 있는 예제를 복사, 수정 및 사용할 수 있습니다.) 이 샘플 xml에서는 EDM 중요한 형식을 만들려면 다음 필드를 사용자 지정해야 합니다.
RulePack ID & ExactMatch ID:New-GUID를 사용하여 GUID를 생성합니다.
Datastore: 이 필드는 사용할 EDM 조회 데이터 저장소를 지정합니다. 구성된 EDM 스키마의 데이터 원본 이름을 제공합니다.
idMatch: 이 필드는 EDM의 기본 요소를 가리킵니다.
일치: 정확한 조회에 사용할 필드를 지정합니다. 데이터 저장소의 EDM 스키마에서 검색 가능한 필드 이름을 입력합니다.
분류: 이 필드는 EDM 조회를 트리거하는 중요한 정보 유형 일치를 지정합니다. 기존 기본 제공 또는 사용자 지정 중요한 정보 유형의 이름 또는 GUID를 사용할 수 있습니다.
참고
제공된 SIT와 일치하는 모든 문자열은 해시되고 중요한 정보 원본 테이블의 모든 항목과 비교됩니다. 분류 요소에 대한 사용자 지정 SIT를 선택하는 경우 성능 문제를 방지하려면 많은 콘텐츠와 일치하는 SIT를 사용하지 마세요. 예를 들어 "any number" 또는 "any five-letter word"가 일치하는 단어입니다. 지원 키워드를 추가하거나 사용자 지정 분류 SIT 정의에 서식을 포함하여 구분할 수 있습니다.
일치: 이 필드는 idMatch 근접에서 발견된 추가 증거를 가리킵니다.
일치: DataStore에 대한 EDM 스키마에 필드 이름을 제공합니다.
리소스 idRef: 이 섹션에서는 여러 로캘의 중요한 형식에 대한 이름과 설명을 지정합니다.
- ExactMatch ID에 대한 GUID를 제공합니다.
- 이름 & description: 필요에 따라 사용자 지정합니다.
<RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm"> <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11"> <Version build="0" major="2" minor="0" revision="0" /> <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" /> <Details defaultLangCode="en-us"> <LocalizedDetails langcode="en-us"> <PublisherName>IP DLP</PublisherName> <Name>Health Care EDM Rulepack</Name> <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description> </LocalizedDetails> </Details> </RulePack> <Rules> <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" > <Pattern confidenceLevel="65"> <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" /> </Pattern> <Pattern confidenceLevel="75"> <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" /> <Any minMatches ="3" maxMatches ="6"> <match matches="PatientID" /> <match matches="MRN"/> <match matches="FirstName"/> <match matches="LastName"/> <match matches="Phone"/> <match matches="DOB"/> </Any> </Pattern> </ExactMatch> <LocalizedStrings> <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371"> <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name> <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description> </Resource> </LocalizedStrings> </Rules> </RulePackage>
다음 PowerShell 명령을 실행하여 규칙 패키지를 업로드합니다.
New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
참고
규칙 패키지 파일의 구문은 다른 중요한 정보 유형과 동일합니다. 규칙 패키지 파일의 구문 및 추가 구성 옵션에 대한 자세한 내용과 PowerShell을 사용하여 중요한 정보 유형을 수정 및 삭제하는 방법에 대한 지침은 PowerShell을 사용하여 사용자 지정 중요한 정보 유형을 만듭니다.