열 패턴 프로필 요청 옵션(데이터 프로파일링 태스크)Column Pattern Profile Request Options (Data Profiling Task)

프로필 요청 페이지의 요청 속성 창을 사용하여 요청 창에서 선택한 열 패턴 프로필 요청 의 옵션을 설정할 수 있습니다.Use the Request Properties pane of the Profile Requests page to set the options for the Column Pattern Profile Request selected in the requests pane. 열 패턴 프로필은 문자열 열에서 지정된 값의 비율을 포괄하는 정규식 집합을 보고합니다.A Column Pattern profile reports a set of regular expressions that cover the specified percentage of values in a string column. 이 프로필을 사용하면 잘못된 문자열과 같은 데이터 문제를 식별하는 데 도움이 되며 앞으로 새 값의 유효성 검사에 사용할 수 있는 정규식을 제안 받을 수 있습니다.This profile can help you identify problems in your data, such as invalid strings, and can suggest regular expressions that can be used in the future to validate new values. 예를 들어 미국 우편 번호 열의 패턴 프로필이 \d{5}-\d{4}, \d{5} 및 \d{9} 정규식을 생성할 수 있습니다.For example, a pattern profile of a column of United States Zip Codes might produce the regular expressions \d{5}-\d{4}, \d{5}, and \d{9}. 다른 정규식이 보이면 데이터에 유효하지 않거나 잘못된 형식의 값이 포함되어 있을 가능성이 높습니다.If you see other regular expressions, your data likely contains values that are invalid or in an incorrect format.

참고

이 항목에서 설명하는 옵션은 데이터 프로파일링 태스크 편집기프로필 요청 페이지에 나타납니다.The options described in this topic appear on the Profile Requests page of the Data Profiling Task Editor. 편집기의 이 페이지에 대한 자세한 내용은 데이터 프로파일링 태스크 편집기(프로필 요청 페이지)를 참조하세요.For more information about this page of the editor, see Data Profiling Task Editor (Profile Requests Page).

데이터 프로파일링 태스크를 사용하는 방법에 대한 자세한 내용은 데이터 프로파일링 태스크 설정을 참조하세요.For more information about how to use the Data Profiling Task, see Setup of the Data Profiling Task. 데이터 프로필 뷰어를 사용하여 데이터 프로파일링 태스크의 출력을 분석하는 방법에 대한 자세한 내용은 데이터 프로필 뷰어를 참조하세요.For more information about how to use the Data Profile Viewer to analyze the output of the Data Profiling Task, see Data Profile Viewer.

구분 기호 및 기호 사용 이해Understanding the Use of Delimiters and Symbols

열 패턴 프로필 요청에 대한 패턴을 계산하기 전에 데이터 프로파일링 태스크에서는 데이터를 토큰화합니다.Before computing the patterns for a Column Pattern Profile Request, the Data Profiling Task tokenizes the data. 즉, 이 태스크에서는 문자열 값을 토큰이라는 더 작은 단위로 구분합니다.That is, the task separates the string values into smaller units known as tokens. 이 태스크에서는 DelimitersSymbols 속성에 대해 지정하는 구분 기호 및 기호를 기반으로 문자열을 토큰으로 구분합니다.The task separates strings into tokens based on the delimiters and symbols that you specify for the Delimiters and Symbols properties:

  • Delimiters 기본적으로 Delimiters 목록에는 공백 문자, 가로 탭 문자(\t), 줄 바꿈 문자(\n) 및 캐리지 리턴 문자(\r)가 포함됩니다.Delimiters By default, the list of delimiters contains the following characters: space, horizontal tab (\t), new line (\n), and carriage return (\r). 추가 구분 기호를 지정할 수 있지만 기본 구분 기호는 제거할 수 없습니다.You can specify additional delimiters, but you cannot remove the default delimiters.

  • 기호 기본적으로 목록 기호 문자 포함: ,.;:-"'~=&/@!?()<>[]{}|#*^% 눈금 표시와 합니다.Symbols By default, the list of Symbols contains the following characters: ,.;:-"'~=&/@!?()<>[]{}|#*^% as well as the tick mark. 예를 들어 기호가 "()-"인 경우 값 "(425) 123-4567"은 ["(", "425", ")", "123", "-", "4567", ")"]로 토큰화됩니다.For example, if the symbols are "()-", the value "(425) 123-4567" is tokenized as ["(", "425", ")", "123", "-", "4567", ")"].

    한 문자가 동시에 구분 기호이면서 기호일 수는 없습니다.A character cannot be both a delimiter and a symbol.

    모든 구분 기호는 토큰화 프로세스의 일환으로 단일 공백으로 정규화됩니다. 반면 기호는 유지됩니다.All delimiters are normalized to a single space as part of the tokenizing process, while symbols are retained.

태그 테이블 사용 이해Understanding the Use of the Tag Table

SQL ServerSQL Server 데이터베이스에서 만든 특수 테이블에 태그 및 관련 용어를 저장하여 관련 토큰을 단일 태그를 사용하여 그룹화할 수도 있습니다.You can optionally group related tokens with a single tag by storing tags and the related terms in a special table that you create in a SQL ServerSQL Server database. 태그 테이블에는 이름이 하나는 "Tag"이고 다른 하나는 "Term"인 두 개의 문자열 열이 있어야 합니다.The tag table must have two string columns, one named "Tag" and the other named "Term". 이러한 열의 유형은 char, nchar, varchar또는 nvarchar일 수 있지만 text 또는 ntext일 수는 없습니다.These columns can be of type char, nchar, varchar, or nvarchar, but not text or ntext. 단일 테이블에서 여러 태그와 해당 용어를 결합할 수 있습니다.You can combine multiple tags and the corresponding terms in a single table. 열 패턴 프로필 요청은 하나의 태그 테이블만 사용할 수 있습니다.A Column Pattern Profile Request can use only one tag table. 별도의 ADO.NETADO.NET 연결 관리자를 사용하여 태그 테이블에 연결할 수 있습니다.You can use a separate ADO.NETADO.NET connection manager to connect to the tag table. 따라서 태그 테이블은 다른 데이터베이스에 있거나 원본 데이터와 다른 서버에 있을 수 있습니다.Therefore, the tag table can be located in a different database or on a different server than the source data.

예를 들어 단일 태그 "Direction"을 사용하여 주소에 나타날 수 있는 값 "East", "West", "North" 및 "South"를 그룹화할 수 있습니다.For example, you could group the values "East", "West", "North", and "South" that might appear in street addresses by using the single tag, "Direction". 다음 테이블은 이러한 태그 테이블의 예입니다.The following table is an example of such a tag table.

태그Tag 용어Term
DirectionDirection EastEast
DirectionDirection WestWest
DirectionDirection NorthNorth
DirectionDirection SouthSouth

다른 태그를 사용하여 주소에서 "번지"의 개념을 나타내는 다른 단어를 그룹화할 수 있습니다.You could use another tag to group the different words that express the notion of a "street" in street addresses:

태그Tag 용어Term
StreetStreet StreetStreet
StreetStreet AvenueAvenue
StreetStreet PlacePlace
StreetStreet WayWay

이러한 태그의 조합을 기반으로 주소에 대한 결과 패턴은 다음과 같을 수 있습니다.Based on this combination of tags, the resulting pattern for a street address might resemble the following pattern:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

참고

태그 테이블을 사용하면 데이터 프로파일링 태스크의 성능이 저하됩니다.Using a tag table decreases the performance of the Data Profiling task. 태그를 11개 이상 사용하거나 태그 당 용어를 101개 이상 사용하지 마십시오.Do not use more than 10 tags or more than 100 terms per tag.

같은 용어는 두 개 이상의 태그에 속할 수 있습니다.The same term can belong to more than one tag.

요청 속성 옵션Request Properties Options

열 패턴 프로필 요청에 대해 요청 속성 창에는 다음 옵션 그룹이 표시됩니다.For a Column Pattern Profile Request, the Request Properties pane displays the following groups of options:

  • 데이터- TableOrViewColumn 옵션이 포함되어 있습니다.Data, which includes the TableOrView and Column options

  • 일반General

  • OptionsOptions

데이터 옵션Data Options

ConnectionManagerConnectionManager
.NET Data Provider for ADO.NETADO.NET (SqlClient)를 사용하여 프로파일링할 테이블이나 뷰가 포함된 SQL ServerSQL Server 데이터베이스에 연결하는 기존 SQL ServerSQL Server 연결 관리자를 선택합니다.Select the existing ADO.NETADO.NET connection manager that uses the .NET Data Provider for SQL ServerSQL Server (SqlClient) to connect to the SQL ServerSQL Server database that contains the table or view to be profiled.

TableOrViewTableOrView
프로파일링할 열이 포함된 기존 테이블이나 뷰를 선택합니다.Select the existing table or view that contains the column to be profiled.

자세한 내용은 이 항목의 "TableorView 옵션" 섹션을 참조하십시오.For more information, see the section, "TableorView Options," in this topic.

ColumnColumn
프로파일링할 기존 열을 선택합니다.Select the existing column to be profiled. 모든 열을 프로파일링하려면 (*)를 선택합니다.Select (*) to profile all columns.

자세한 내용은 이 항목의 "열 옵션" 섹션을 참조하십시오.For more information, see the section, "Column Options," in this topic.

TableOrView 옵션TableOrView Options

스키마Schema
선택한 테이블이 속해 있는 스키마를 지정합니다.Specifies the schema to which the selected table belongs. 이 옵션은 읽기 전용입니다.This option is read-only.

테이블Table
선택한 테이블의 이름을 표시합니다.Displays the name of the selected table. 이 옵션은 읽기 전용입니다.This option is read-only.

열 옵션Column Options

IsWildCardIsWildCard
(*) 와일드카드가 선택되었는지 여부를 지정합니다.Specifies whether the (*) wildcard has been selected. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 True로 설정됩니다.This option is set to True if you have selected (*) to profile all columns. 프로파일링할 개별 열을 선택한 경우에는 False 로 설정됩니다.It is False if you have selected an individual column to be profiled. 이 옵션은 읽기 전용입니다.This option is read-only.

ColumnNameColumnName
선택한 열의 이름을 표시합니다.Displays the name of the selected column. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 비어 있습니다.This option is blank if you have selected (*) to profile all columns. 이 옵션은 읽기 전용입니다.This option is read-only.

StringCompareOptionsStringCompareOptions
이 옵션은 열 패턴 프로필에 적용되지 않습니다.This option does not apply to the Column Pattern Profile.

일반 옵션General Options

RequestIDRequestID
이 프로필 요청을 식별할 설명이 포함된 이름을 입력합니다.Type a descriptive name to identify this profile request. 일반적으로 자동 생성된 값은 변경하지 않아도 됩니다.Typically, you do not have to change the autogenerated value.

옵션이 포함되어 있습니다.Options

MaxNumberOfPatternsMaxNumberOfPatterns
프로필에서 계산할 최대 패턴 수를 지정합니다.Specify the maximum number of patterns that you want the profile to compute. 이 옵션의 기본값은 10입니다.The default value of this option is 10. 최대값은 100입니다.The maximum value is 100.

PercentageDataCoverageDesiredPercentageDataCoverageDesired
계산된 패턴에 포괄할 데이터의 비율을 지정합니다.Specify the percentage of the data that you want the computed patterns to cover. 이 옵션의 기본값은 95%입니다.The default value of this option is 95 (percent).

CaseSensitiveCaseSensitive
패턴에서 대/소문자를 구분할지 여부를 나타냅니다.Indicate whether the patterns should be case-sensitive. 이 옵션의 기본값은 False입니다.The default value of this option is False.

DelimitersDelimiters
텍스트를 토큰화할 때 단어 간 공백과 동일하게 처리할 문자를 나열합니다.List the characters that should be treated as the equivalent of spaces between words when tokenizing text. 기본적으로 Delimiters 목록에는 공백 문자, 가로 탭 문자(\t), 줄 바꿈 문자(\n) 및 캐리지 리턴 문자(\r)가 포함됩니다.By default, the list of Delimiters contains the following characters: the space, horizontal tab (\t), new line (\n), and carriage return (\r). 추가 구분 기호를 지정할 수 있지만 기본 구분 기호는 제거할 수 없습니다.You can specify additional delimiters, but you cannot remove the default delimiters.

자세한 내용은 이 항목의 앞부분에 나오는 "구분 기호 및 기호 사용 이해"를 참조하십시오.For more information, see "Understanding the Use of Delimiters and Symbols" earlier in this topic.

SymbolsSymbols
패턴의 일부로 유지할 기호를 나열합니다.List the symbols that should be retained as part of patterns. 이러한 기호에는 날짜의 "/", 시간의 ":" 및 전자 메일 주소의 " @ "이 포함될 수 있습니다.Examples might include "/" for dates, ":" for times, and "@" for e-mail addresses.</span></span> <span data-ttu-id="6b22d-214">기본적으로 목록 기호 문자 포함: ,.;:-"'~=&/@!?()<>[]{}|#*^%합니다.By default, the list of Symbols contains the following characters: ,.;:-"'~=&/@!?()<>[]{}|#*^%.

자세한 내용은 이 항목의 앞부분에 나오는 "구분 기호 및 기호 사용 이해"를 참조하십시오.For more information, see "Understanding the Use of Delimiters and Symbols" earlier in this topic.

TagTableConnectionManagerTagTableConnectionManager
.NET Data Provider for ADO.NETADO.NET (SqlClient)를 사용하여 태그 테이블이 포함된 SQL ServerSQL Server 데이터베이스에 연결하는 기존 SQL ServerSQL Server 연결 관리자를 선택합니다.Select the existing ADO.NETADO.NET connection manager that uses the .NET Data Provider for SQL ServerSQL Server (SqlClient) to connect to the SQL ServerSQL Server database that contains the tag table.

자세한 내용은 이 항목의 앞부분에 나오는 "태그 테이블 사용 이해"를 참조하십시오.For more information, see "Understanding the Use of the Tag Table" earlier in this topic.

TagTableNameTagTableName
Tag 및 Term이라는 두 개의 문자열 열이 있어야 하는 기존 태그 테이블을 선택합니다.Select the existing tag table, which must have two string columns named Tag and Term.

자세한 내용은 이 항목의 앞부분에 나오는 "태그 테이블 사용 이해"를 참조하십시오.For more information, see "Understanding the Use of the Tag Table" earlier in this topic.

관련 항목:See Also

데이터 프로파일링 태스크 편집기(일반 페이지) Data Profiling Task Editor (General Page)
단일 테이블 빠른 프로필 형식 ( 데이터 작업 ) 프로 파일링Single Table Quick Profile Form (Data Profiling Task)