데이터 프로파일링 태스크 설정Setup of the Data Profiling Task

원본 데이터의 프로필을 검토하기 전에 수행해야 하는 첫 번째 단계는 데이터 프로파일링 태스크를 설정하고 실행하는 것입니다.Before you can review a profile of the source data, the first step is to set up and run the Data Profiling task. Integration ServicesIntegration Services 패키지 내에서 이 태스크를 만듭니다.You create this task inside an Integration ServicesIntegration Services package. 데이터 프로파일링 태스크를 구성하려면 데이터 프로파일링 태스크 편집기를 사용합니다.To configure the Data Profiling task, you use the Data Profiling Task Editor. 이 편집기를 사용하면 프로필을 출력할 위치와 계산할 프로필을 선택할 수 있습니다.This editor enables you to select where to output the profiles, and which profiles to compute. 태스크를 설정한 후 패키지를 실행하여 데이터 프로필을 계산합니다.After you set up the task, you run the package to compute the data profiles.

요구 사항 및 제한 사항Requirements and Limitations

데이터 프로파일링 태스크는 SQL ServerSQL Server에서 저장된 데이터만 사용할 수 있습니다.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. 이 태스크는 타사 또는 파일 기반 데이터 원본을 사용할 수 없습니다.It does not work with third-party or file-based data sources.

또한 데이터 프로파일링 태스크가 포함된 패키지를 실행하려면 tempdb 데이터베이스에 대해 CREATE TABLE 권한을 비롯한 읽기/쓰기 권한이 있는 계정을 사용해야 합니다.Furthermore, to run a package that contains the Data Profiling task, you must use an account that has read/write permissions, including CREATE TABLE permissions, on the tempdb database.

패키지의 데이터 프로파일링 태스크Data Profiling Task in a Package

데이터 프로파일링 태스크는 프로필만 구성하고 계산된 프로필이 포함된 출력 파일을 만듭니다.The Data Profiling task only configures the profiles and creates the output file that contains the computed profiles. 이 출력 파일을 검토하려면 독립 실행형 뷰어 프로그램인 데이터 프로필 뷰어를 사용해야 합니다.To review this output file, you must use the Data Profile Viewer, a stand-alone viewer program. 출력을 별도로 검토해야 하기 때문에 다른 태스크가 포함되어 있지 않은 패키지에서 데이터 프로파일링 태스크를 사용합니다.Because you must view the output separately, you might use the Data Profiling task in a package that contains no other tasks.

그러나 데이터 프로파일링 태스크를 패키지의 유일한 태스크로 사용할 필요는 없습니다.However, you do not have to use the Data Profiling task as the only task in a package. 더 복잡한 패키지의 워크플로 또는 데이터 흐름에서 데이터 프로파일링을 수행하려면 다음 방법 중 하나를 선택합니다.If you want to perform data profiling in the workflow or data flow of a more complex package, you have the following options:

  • 패키지의 제어 흐름에서 태스크의 출력 파일을 기반으로 하는 조건부 논리를 구현하려면 데이터 프로파일링 태스크 뒤에 스크립트 태스크를 삽입합니다.To implement conditional logic that is based on the task's output file, in the control flow of the package, put a Script task after the Data Profiling task. 그러면 이 스크립트 태스크를 사용하여 출력 파일을 쿼리할 수 있습니다.You can then use this Script task to query the output file.

  • 데이터가 로드되고 변환된 후 데이터 흐름에서 데이터를 프로파일링하려면 변경된 데이터를 임시로 SQL ServerSQL Server 테이블에 저장해야 합니다.To profile data in the data flow after the data has been loaded and transformed, you have to save the changed data temporarily to a SQL ServerSQL Server table. 그러면 저장된 데이터를 프로파일링할 수 있습니다.Then, you can profile the saved data.

    자세한 내용은 패키지 워크플로에 데이터 프로파일링 태스크 포함을 참조하세요.For more information, see Incorporate a Data Profiling Task in Package Workflow.

태스크 출력 설정Setup of the Task Output

패키지에 데이터 프로파일링 태스크를 삽입한 후에는 태스크에서 계산할 프로필의 출력을 설정해야 합니다.After the Data Profiling task is in a package, you must set up the output for the profiles that the task will compute. 프로필의 출력을 설정하려면 데이터 프로파일링 태스크 편집기의 일반 페이지를 사용합니다.To set up the output for the profiles, you use the General page of the Data Profiling Task Editor. 일반 페이지는 출력의 대상을 지정하는 기능뿐만 아니라 빠른 데이터 프로파일링을 수행하는 기능을 제공합니다.In addition to specifying the destination for the output, the General page also offers you the ability to perform a quick profile of the data. 빠른 프로필을 선택하면 데이터 프로파일링 태스크가 일부 또는 전체 기본 프로필과 해당 기본 설정을 사용하여 테이블 또는 뷰를 프로파일링합니다.When you select Quick Profile, the Data Profiling task profiles a table or view by using some or all the default profiles with their default settings.

자세한 내용은 데이터 프로파일링 태스크 편집기(일반 페이지)단일 테이블 빠른 프로필 형식(데이터 프로파일링 태스크)을 참조하세요.For more information, see Data Profiling Task Editor (General Page) and Single Table Quick Profile Form (Data Profiling Task).

중요

출력 파일에는 데이터베이스와 해당 데이터베이스에 포함된 데이터에 대한 중요 데이터가 포함될 수 있습니다.The output file might contain sensitive data about your database and the data that database contains. 이 파일을 보다 안전하게 보호하는 방법에 대한 제안 사항은 패키지에서 사용되는 파일 액세스를 참조하세요.For suggestions about how to make this file more secure, see Access to Files Used by Packages.

계산할 프로필 선택 및 구성Selection and Configuration of the Profiles to be Computed

출력 파일을 설정한 후에는 계산할 데이터 프로필을 선택해야 합니다.After you have set up the output file, you have to select which data profiles to compute. 데이터 프로파일링 태스크는 8가지 데이터 프로필을 계산할 수 있습니다.The Data Profiling Task can compute eight different data profiles. 이 중 5개는 개별 열을 분석하며, 나머지 3개는 여러 열 또는 열과 테이블 간의 관계를 분석합니다.Five of these profiles analyze individual columns, and the remaining three analyze multiple columns or relationships between columns and tables. 단일 데이터 프로파일링 태스크에서 여러 테이블 또는 뷰에 있는 여러 열이나 열 조합에 대해 여러 프로필을 계산할 수 있습니다.In a single Data Profiling task, you can compute multiple profiles for multiple columns or combinations of columns in multiple tables or views.

다음 표에서는 이러한 각 프로필이 계산하는 보고서와 해당 프로필이 유효한 데이터 형식을 설명합니다.The following table describes the reports that each of these profiles computes and the data types for which the profile is valid.

계산 대상To compute 식별에 도움이 되는 값Which help identify 사용할 프로필Use this profile
선택한 열에 있는 문자열 값의 모든 고유 길이 및 각 길이가 나타내는 테이블 내 행의 비율All the distinct lengths of string values in the selected column and the percentage of rows in the table that each length represents. 유효하지 않은 문자열 값- 예를 들어 미국의 주 코드에 대해 두 개의 문자를 사용해야 하는 열을 프로파일링하는 중 두 문자보다 긴 값이 검색될 수 있습니다.String values that are not valid—For example, you profile of a column that is supposed to use two characters for state codes in the United States, but discover values that are longer than two characters. 열 길이 분포 -다음 문자 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Column Length Distribution—Valid for a column with one of the following character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar
문자열 열에서 지정된 값의 비율을 포괄하는 정규식 집합A set of regular expressions that cover the specified percentage of values in a string column.

또한 앞으로 새 값의 유효성 검사에 사용할 수 있는 정규식 검색을 위해Also, to find regular expressions that can be used in the future to validate new values
유효하지 않거나 올바른 형식이 아닌 문자열 값—예를 들어 우편 번호 열의 패턴 프로필이 \d{5}-\d{4}, \d{5} 및 \d{9} 정규식을 생성할 수 있습니다.String values that are not valid or not in the correct format—For example, a pattern profile of a Zip Code/Postal Code column might produce the regular expressions: \d{5}-\d{4}, \d{5}, and \d{9}. 출력에 다른 정규식이 포함된 경우 데이터에 유효하지 않거나 잘못된 형식의 값이 포함되어 있는 것입니다.If the output contains other regular expressions, the data contains values that are either not valid or in an incorrect format. 열 패턴 프로필 -다음 문자 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Column Pattern Profile—Valid for a column with one of the following character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar
선택한 열 내 Null 값의 비율The percentage of null values in the selected column. 예기치 않게 높은 열 내 Null 값의 비율- 예를 들어 미국 우편 번호를 포함해야 하는 열을 프로파일링하는 중 누락된 우편 번호의 비율이 예기치 않게 높음이 검색될 수 있습니다.An unexpectedly high ratio of null values in a column—For example, you profile a column that is supposed to contain United States Zip Codes, but discover an unacceptably high percentage of missing zip codes. 열 Null 비율 -다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Column Null Ratio—Valid for a column with one of the following data types:

imageimage

texttext

xmlxml

사용자 정의 형식user-defined types

변형 유형variant types
숫자 열에 대한 최소값, 최대값, 평균값, 표준 편차 및 datetime 열에 대한 최소값/최대값과 같은 통계Statistics such as minimum, maximum, average, and standard deviation for numeric columns, and minimum and maximum for datetime columns. 유효하지 않은 숫자 값 및 날짜- 예를 들어 기록 날짜 열을 프로파일링하는 중 미래의 최대 날짜가 검색될 수 있습니다.Numeric values and dates that are not valid—For example, you profile a column of historical dates, but discover a maximum date that is in the future. 열 통계 프로필 -다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Column Statistics Profile—Valid for a column with one of these data types.

숫자 데이터 형식:Numeric data types:

정수 형식(제외: bitinteger types (except bit

moneymoney

smallmoneysmallmoney

decimaldecimal

floatfloat

realreal

numericnumeric

날짜 및 시간 데이터 형식:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datedate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset

참고: 날짜 및 시간 데이터 형식이 포함된 열의 경우 프로필이 최소값 및 최대값만 계산합니다.Note: For a column that has a date and time data type, the profile computes minimum and maximum only.
선택한 열에 있는 모든 고유 값 및 각 값이 나타내는 테이블 내 행의 비율All the distinct values in the selected column and the percentage of rows in the table that each value represents. 또는 테이블에서 지정된 비율을 초과하는 값Or, the values that represent more than a specified percentage in the table. 열에 포함된 잘못된 수의 고유 값- 예를 들어 미국의 주가 포함된 열을 프로파일링하는 중 50개를 초과하는 고유 값이 검색될 수 있습니다.An incorrect number of distinct values in a column—For example, you profile a column that contains states in the United States, but discover more than 50 distinct values. 열 값 분포 -다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Column Value Distribution—Valid for a column with one of the following data types.

숫자 데이터 형식:Numeric data types:

정수 형식(제외: bitinteger types (except bit

moneymoney

smallmoneysmallmoney

decimaldecimal

floatfloat

realreal

numericnumeric

문자 데이터 형식:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

날짜 및 시간 데이터 형식:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datedate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
열 또는 열 집합이 선택한 테이블에 대해 키인지, 아니면 근사 키인지 여부Whether a column or set of columns is a key, or an approximate key, for the selected table. 잠재적 키 열의 중복 값- 예를 들어 Customers 테이블의 Name 및 Address 열을 프로파일링하는 중 이름과 주소의 조합이 고유해야 하는데 중복 값이 검색될 수 있습니다.Duplicate values in a potential key column—For example, you profile the Name and Address columns in a Customers table, and discover duplicate values where the name and address combinations should be unique. 후보 키- 열 또는 열 집합이 선택한 테이블에 대한 키 역할을 수행하기에 적합한지 여부를 보고하는 여러 열 프로필Candidate Key—A multiple column profile that reports whether a column or set of columns is appropriate to serve as a key for the selected table. 다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Valid for columns with one of these data types.

정수 데이터 형식:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

문자 데이터 형식:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

날짜 및 시간 데이터 형식:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datedate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
한 열(종속 열)의 값이 다른 열 또는 열 집합(결정 열)의 값에 종속되는 범위The extent to which the values in one column (the dependent column) depend on the values in another column or set of columns (the determinant column). 종속 열에서 유효하지 않은 값- 예를 들어 미국의 우편 번호가 포함된 열과 미국의 주가 포함된 열 간 종속성을 프로파일링하는 중Values that are not valid in dependent columns—For example, you profile the dependency between a column that contains United States Zip Codes and a column that contains states in the United States. 같은 우편 번호는 항상 같은 주여야 하는데The same Zip Code should always have the same state. 프로필이 종속성 위반을 검색할 수 있습니다.However, the profile discovers violations of the dependency. 함수 종속성 -다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Functional Dependency—Valid for columns with one of these data types.

정수 데이터 형식:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

문자 데이터 형식:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

날짜 및 시간 데이터 형식:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datedate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
열 또는 열 집합이 선택한 테이블 간의 외래 키 역할을 수행하기에 적합한지 여부Whether a column or set of columns is appropriate to serve as a foreign key between the selected tables.

즉, 이 프로필은 두 개의 열 또는 열 집합 간에 겹치는 값을 보고합니다.That is, this profile reports the overlap in the values between two columns or sets of columns.
유효하지 않은 값- 예를 들어 Sales 테이블의 ProductID 열을 프로파일링하는 중Values that are not valid—For example, you profile the ProductID column of a Sales table. 프로필이 Products 테이블의 ProductID 열에 없는 값이 열에 포함되어 있음을 검색할 수 있습니다.The profile discovers that the column contains values that are not found in the ProductID column of the Products table. 값 포함- 다음 데이터 형식 중 하나가 지정된 열에 대해 유효합니다.Value Inclusion—Valid for columns with one of these data types:

정수 데이터 형식:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

문자 데이터 형식:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

날짜 및 시간 데이터 형식:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datedate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset

계산할 프로필을 선택하려면 데이터 프로파일링 태스크 편집기의 프로필 요청 페이지를 사용합니다.To select which profiles to compute, you use the Profile Requests page of the Data Profiling Task Editor. 자세한 내용은 데이터 프로파일링 태스크 편집기(프로필 요청 페이지)를 참조하세요.For more information, see Data Profiling Task Editor (Profile Requests Page).

프로필 요청 페이지에서 데이터 원본을 지정하고 데이터 프로필도 구성합니다.On the Profile Request page, you also specify the data source and configure the data profiles. 태스크를 구성할 때 다음 정보를 고려하십시오.When you configure the task, think about the following information:

데이터 프로파일링 태스크가 포함된 패키지 실행Execution of the Package that Contains the Data Profiling Task

데이터 프로파일링 태스크를 설정한 후 이 태스크를 실행할 수 있습니다.After you have set up the Data Profiling task, you can run the task. 그러면 이 태스크에서 데이터 프로필을 계산하여 이 정보를 XML 형식으로 파일 또는 패키지 변수에 출력합니다.The task then computes the data profiles and outputs this information in XML format to a file or a package variable. 이 XML의 구조는 DataProfile.xsd 스키마를 따릅니다.The structure of this XML follows the DataProfile.xsd schema. MicrosoftMicrosoft Visual StudioVisual Studio 또는 다른 스키마 편집기, XML 편집기, 메모장과 같은 텍스트 편집기에서 이 스키마를 열 수 있습니다.You can open the schema in MicrosoftMicrosoft Visual StudioVisual Studio or another schema editor, in an XML editor, or in a text editor such as Notepad. 데이터 품질 정보에 대한 이 스키마는 다음과 같은 용도로 사용할 경우 유용할 수 있습니다.This schema for data quality information could be useful for the following purposes:

다음 단계Next Step

데이터 프로필 뷰어Data Profile Viewer.