Impostazione dell'attività Profiling datiSetup of the Data Profiling Task

Prima di poter esaminare un profilo dei dati di origine, configurare ed eseguire l'attività Profiling dati.Before you can review a profile of the source data, the first step is to set up and run the Data Profiling task. È necessario creare questa attività all'interno di un pacchetto di Integration ServicesIntegration Services .You create this task inside an Integration ServicesIntegration Services package. Per configurare l'attività Profiling dati, utilizzare lo strumento Editor attività Profiling dati.To configure the Data Profiling task, you use the Data Profiling Task Editor. Questo editor consente di selezionare la destinazione dell'output dei profili e i profili da calcolare.This editor enables you to select where to output the profiles, and which profiles to compute. Dopo avere configurato l'attività, è necessario eseguire il pacchetto per calcolare i profili dati.After you set up the task, you run the package to compute the data profiles.

Requisiti e limitazioniRequirements and Limitations

L'attività Profiling dati funziona solo con i dati archiviati in SQL ServerSQL Server.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. L'attività non può essere utilizzata con origini dati di terze parti o basate su file.It does not work with third-party or file-based data sources.

Per eseguire un pacchetto contenente l'attività Profiling dati, inoltre, è necessario utilizzare un account che disponga di autorizzazioni di lettura/scrittura per il database tempdb.Furthermore, to run a package that contains the Data Profiling task, you must use an account that has read/write permissions, including CREATE TABLE permissions, on the tempdb database.

Attività Profiling dati in un pacchettoData Profiling Task in a Package

L'attività Profiling dati consente solo di configurare i profili e creare il file di output contenente i profili calcolati.The Data Profiling task only configures the profiles and creates the output file that contains the computed profiles. Per esaminare questo file di output, è necessario utilizzare Visualizzatore profilo dati, un programma di visualizzazione autonomo.To review this output file, you must use the Data Profile Viewer, a stand-alone viewer program. Poiché è necessario visualizzare separatamente l'output, è possibile utilizzare l'attività Profiling dati in un pacchetto che non contiene altre attività.Because you must view the output separately, you might use the Data Profiling task in a package that contains no other tasks.

Non è tuttavia necessario utilizzare Profiling dati come unica attività in un pacchetto.However, you do not have to use the Data Profiling task as the only task in a package. Se si desidera eseguire l'attività Profiling dati nel flusso di lavoro o nel flusso di dati di un pacchetto più complesso, sono disponibili le opzioni seguenti:If you want to perform data profiling in the workflow or data flow of a more complex package, you have the following options:

  • Per implementare la logica condizionale basata sul file di output dell'attività, nel flusso di controllo del pacchetto inserire un'attività Script dopo l'attività Profiling dati.To implement conditional logic that is based on the task's output file, in the control flow of the package, put a Script task after the Data Profiling task. Tale attività Script potrà essere utilizzata per eseguire query sul file di output.You can then use this Script task to query the output file.

  • Per eseguire l'attività Profiling dati del flusso di dati in seguito al caricamento e alla trasformazione dei dati, è necessario salvare temporaneamente i dati modificati in una tabella di SQL ServerSQL Server .To profile data in the data flow after the data has been loaded and transformed, you have to save the changed data temporarily to a SQL ServerSQL Server table. A questo punto, è possibile eseguire il profiling dei dati salvati.Then, you can profile the saved data.

    Per altre informazioni, vedere Incorporamento di un'attività Profiling dati nel flusso di lavoro del pacchetto.For more information, see Incorporate a Data Profiling Task in Package Workflow.

Impostazione dell'output dell'attivitàSetup of the Task Output

Quando l'attività Profiling dati si trova in un pacchetto, è necessario configurare l'output per i profili che verranno calcolati dall'attività.After the Data Profiling task is in a package, you must set up the output for the profiles that the task will compute. Per configurare l'output per i profili, è necessario usare la pagina Generale dello strumento Editor attività Profiling dati.To set up the output for the profiles, you use the General page of the Data Profiling Task Editor. Oltre a consentire di specificare la destinazione per l'output, la pagina Generale offre la possibilità di eseguire un rapido profiling dei dati.In addition to specifying the destination for the output, the General page also offers you the ability to perform a quick profile of the data. Quando si seleziona Profilo rapido, l'attività Profiling dati esegue il profiling di una tabella o di una vista usando alcuni o tutti i profili predefiniti con le relative impostazioni predefinite.When you select Quick Profile, the Data Profiling task profiles a table or view by using some or all the default profiles with their default settings.

Per altre informazioni, vedere Editor attività Profiling dati (pagina Generale) e Form profilo rapido singola tabella (Attività Profiling dati).For more information, see Data Profiling Task Editor (General Page) and Single Table Quick Profile Form (Data Profiling Task).

Importante

Il file di output potrebbe contenere dati sensibili sul database e i dati inclusi nel database.The output file might contain sensitive data about your database and the data that database contains. Per suggerimenti su come migliorare la protezione di questo file, vedere Accesso ai file utilizzati dai pacchetti.For suggestions about how to make this file more secure, see Access to Files Used by Packages.

Selezione e configurazione dei profili da calcolareSelection and Configuration of the Profiles to be Computed

Dopo avere configurato il file di output, è necessario selezionare i profili dati da calcolare.After you have set up the output file, you have to select which data profiles to compute. L'attività Profiling dati consente di calcolare otto profili dati diversi.The Data Profiling Task can compute eight different data profiles. Cinque di questi profili analizzano singole colonne e i tre rimanenti analizzano più colonne o relazioni tra colonne e tabelle.Five of these profiles analyze individual columns, and the remaining three analyze multiple columns or relationships between columns and tables. In una singola attività Profiling dati è possibile calcolare più profili per più colonne o combinazioni di colonne in più tabelle o viste.In a single Data Profiling task, you can compute multiple profiles for multiple columns or combinations of columns in multiple tables or views.

Nella tabella seguente vengono descritti i report calcolati da ciascun profilo e i tipi di dati per cui il profilo è valido.The following table describes the reports that each of these profiles computes and the data types for which the profile is valid.

Elementi da calcolareTo compute Valori identificatiWhich help identify Profilo da utilizzareUse this profile
Tutte le singole lunghezze dei valori stringa nella colonna selezionata e la percentuale di righe della tabella rappresentata da ogni lunghezza.All the distinct lengths of string values in the selected column and the percentage of rows in the table that each length represents. Valori stringa non validi: si analizza, ad esempio, una colonna che dovrebbe usare due caratteri per i codici di stato negli Stati Uniti, ma in cui si individua la presenza di valori più lunghi di due caratteri.String values that are not valid—For example, you profile of a column that is supposed to use two characters for state codes in the United States, but discover values that are longer than two characters. Distribuzione lunghezze di colonna: valido per una colonna con uno dei tipi di dati di tipo carattere indicati di seguito:Column Length Distribution—Valid for a column with one of the following character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar
Set di espressioni regolari relative alla percentuale specificata di valori in una colonna stringa.A set of regular expressions that cover the specified percentage of values in a string column.

Inoltre, espressioni regolari da utilizzare in futuro per convalidare nuovi valori.Also, to find regular expressions that can be used in the future to validate new values
Valori stringa non validi o in formato non corretto: un profilo di criteri di ricerca di una colonna Zip Code/Postal Code, ad esempio, può produrre le espressioni regolari \d{5}-\d{4}, \d{5} e \d{9}.String values that are not valid or not in the correct format—For example, a pattern profile of a Zip Code/Postal Code column might produce the regular expressions: \d{5}-\d{4}, \d{5}, and \d{9}. Se l'output contiene altre espressioni regolari, i dati contengono valori non validi o in formato non corretto.If the output contains other regular expressions, the data contains values that are either not valid or in an incorrect format. Profilo Criteri di ricerca colonna: valido per una colonna con uno dei tipi di dati di tipo carattere seguenti:Column Pattern Profile—Valid for a column with one of the following character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar
Percentuale di valori Null nella colonna selezionata.The percentage of null values in the selected column. Rapporto inaspettatamente elevato di valori Null in una colonna: si analizza, ad esempio, una colonna che dovrebbe contenere i codici postali ZIP (Stati Uniti) ma si individua una percentuale troppo elevata di codici postali mancanti.An unexpectedly high ratio of null values in a column—For example, you profile a column that is supposed to contain United States Zip Codes, but discover an unacceptably high percentage of missing zip codes. Rapporto di valori Null nella colonna: valido per una colonna con uno dei tipi di dati di tipo carattere seguenti:Column Null Ratio—Valid for a column with one of the following data types:

imageimage

texttext

xmlxml

tipi definiti dall'utenteuser-defined types

tipi variantvariant types
Segnala le statistiche, ad esempio la deviazione minima, massima, media e standard per le colonne numeriche e minima e massima per le colonne di tipo datetime .Statistics such as minimum, maximum, average, and standard deviation for numeric columns, and minimum and maximum for datetime columns. Valori numerici e date non validi: si analizza, ad esempio, una colonna di date storiche, ma si individua una data massima successiva a quella corrente.Numeric values and dates that are not valid—For example, you profile a column of historical dates, but discover a maximum date that is in the future. Profilo Statistiche di colonna: valido per una colonna con uno dei tipi di dati indicati di seguito.Column Statistics Profile—Valid for a column with one of these data types.

Tipi di dati numerici:Numeric data types:

tipi integer (tranne bitinteger types (except bit

moneymoney

smallmoneysmallmoney

decimaldecimal

floatfloat

realreal

numericnumeric

Tipi di dati di data e ora:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datadate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset

Nota: per una colonna con un tipo di dati di data e ora, il profilo calcola esclusivamente il minimo e il massimo.Note: For a column that has a date and time data type, the profile computes minimum and maximum only.
Tutti i valori distinct nella colonna selezionata e percentuale di righe della tabella rappresentata da ciascun valore.All the distinct values in the selected column and the percentage of rows in the table that each value represents. In alternativa, valori che rappresentano più di una percentuale specificata nella tabella.Or, the values that represent more than a specified percentage in the table. Numero non corretto di valori distinct in un colonna: si analizza, ad esempio, una colonna contenente gli stati degli Stati Uniti ma si individuano più di 50 valori distinct.An incorrect number of distinct values in a column—For example, you profile a column that contains states in the United States, but discover more than 50 distinct values. Distribuzione valori di colonna: valido per una colonna con uno dei tipi di dati seguenti.Column Value Distribution—Valid for a column with one of the following data types.

Tipi di dati numerici:Numeric data types:

tipi integer (tranne bitinteger types (except bit

moneymoney

smallmoneysmallmoney

decimaldecimal

floatfloat

realreal

numericnumeric

Tipi di dati di tipo carattere:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

Tipi di dati di data e ora:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datadate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
Se una colonna o un set di colonne è una chiave o una chiave approssimativa per la tabella selezionata.Whether a column or set of columns is a key, or an approximate key, for the selected table. Valori duplicati in una colonna chiave potenziale: si analizzano, ad esempio, le colonne Name e Address di una tabella Customer e si individuano valori duplicati laddove la combinazione di nome e indirizzo dovrebbe essere univoca.Duplicate values in a potential key column—For example, you profile the Name and Address columns in a Customers table, and discover duplicate values where the name and address combinations should be unique. Chiave candidata: profilo per più colonne che segnala se una colonna o un set di colonne può fungere da chiave per la tabella selezionata.Candidate Key—A multiple column profile that reports whether a column or set of columns is appropriate to serve as a key for the selected table. Valido per colonne con uno dei tipi di dati indicati di seguito.Valid for columns with one of these data types.

Tipi di dati integer:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

Tipi di dati di tipo carattere:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

Tipi di dati di data e ora:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datadate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
Grado di dipendenza dei valori inclusi in una colonna (colonna dipendente) dai valori presenti in un'altra colonna o set di colonne (colonna determinante).The extent to which the values in one column (the dependent column) depend on the values in another column or set of columns (the determinant column). Valori non validi nelle colonne dipendenti: si analizza, ad esempio, una dipendenza tra una colonna contenente i codici postali ZIP (Stati Uniti) e una colonna contenente gli stati degli Stati Uniti.Values that are not valid in dependent columns—For example, you profile the dependency between a column that contains United States Zip Codes and a column that contains states in the United States. Ciascun codice postale dovrebbe corrispondere sempre allo stesso stato.The same Zip Code should always have the same state. Il profilo individua tuttavia violazioni della dipendenza.However, the profile discovers violations of the dependency. Dipendenza funzionale: valido per le colonne con uno dei tipi di dati indicati di seguito.Functional Dependency—Valid for columns with one of these data types.

Tipi di dati integer:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

Tipi di dati di tipo carattere:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

Tipi di dati di data e ora:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datadate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset
Se una colonna o un set di colonne può fungere da chiave esterna tra le tabelle selezionate.Whether a column or set of columns is appropriate to serve as a foreign key between the selected tables.

Ovvero, il profilo segnala la sovrapposizione nei valori tra due colonne o set di colonne.That is, this profile reports the overlap in the values between two columns or sets of columns.
Valori non validi: si analizza, ad esempio, la colonna ProductID di una tabella Sales.Values that are not valid—For example, you profile the ProductID column of a Sales table. Il profilo individua che la colonna contiene valori non inclusi nella colonna ProductID della tabella Products.The profile discovers that the column contains values that are not found in the ProductID column of the Products table. Inclusione valore: valido per le colonne con uno dei tipi di dati indicati di seguito:Value Inclusion—Valid for columns with one of these data types:

Tipi di dati integer:Integer data types:

bitbit

tinyinttinyint

smallintsmallint

intint

bigintbigint

Tipi di dati di tipo carattere:Character data types:

charchar

ncharnchar

varcharvarchar

nvarcharnvarchar

Tipi di dati di data e ora:Date and time data types:

datetimedatetime

smalldatetimesmalldatetime

timestamptimestamp

datadate

timetime

datetime2datetime2

datetimeoffsetdatetimeoffset

Per selezionare i profili da calcolare, usare la pagina Richieste profilo di Editor attività Profiling dati.To select which profiles to compute, you use the Profile Requests page of the Data Profiling Task Editor. Per altre informazioni, vedere Editor attività Profiling dati (pagina Richieste profilo).For more information, see Data Profiling Task Editor (Profile Requests Page).

Nella pagina Richieste profilo è inoltre possibile specificare l'origine dati e configurare i profili dati.On the Profile Request page, you also specify the data source and configure the data profiles. Quando si configura l'attività, tenere presenti le informazioni seguenti:When you configure the task, think about the following information:

Esecuzione del pacchetto contenente l'attività Profiling datiExecution of the Package that Contains the Data Profiling Task

Dopo avere configurato l'attività Profiling dati, è possibile eseguirla.After you have set up the Data Profiling task, you can run the task. L'attività calcola quindi i profili dati e restituisce queste informazioni in formato XML in un file o una variabile del pacchetto.The task then computes the data profiles and outputs this information in XML format to a file or a package variable. La struttura di tale formato XML segue lo schema DataProfile.xsd.The structure of this XML follows the DataProfile.xsd schema. È possibile aprire lo schema in MicrosoftMicrosoft Visual StudioVisual Studio o in un altro editor di schemi, in un editor XML o in un editor di testo, ad esempio Blocco note.You can open the schema in MicrosoftMicrosoft Visual StudioVisual Studio or another schema editor, in an XML editor, or in a text editor such as Notepad. Questo schema per le informazioni sulla qualità dei dati può essere utile nelle situazioni seguenti:This schema for data quality information could be useful for the following purposes:

  • Scambio di informazioni sulla qualità dei dati all'interno di un'organizzazione e tra organizzazioni diverse.To exchange data quality information within and across organizations.

  • Compilazione di strumenti personalizzati da utilizzare con le informazioni sulla qualità dei dati.To build custom tools that work with data quality information.

    Lo spazio dei nomi di destinazione è identificato nello schema come http://schemas.microsoft.com/sqlserver/2008/DataDebugger/.The target namespace is identified in the schema as http://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Passaggio successivoNext Step

Visualizzatore profilo dati.Data Profile Viewer.