Attività Profiling datiData Profiling Task

L'attività Profiling dati calcola i diversi profili che consentono di familiarizzare con un'origine dati e identificare i problemi nei dati che devono essere corretti.The Data Profiling task computes various profiles that help you become familiar with a data source and identify problems in the data that have to be fixed.

È possibile utilizzare l'attività Profiling dati in un pacchetto di Integration ServicesIntegration Services per eseguire il profiling dei dati archiviati in SQL ServerSQL Server e identificare i possibili problemi relativi alla qualità dei dati.You can use the Data Profiling task inside an Integration ServicesIntegration Services package to profile data that is stored in SQL ServerSQL Server and to identify potential problems with data quality.

Nota

In questo argomento vengono descritti i requisiti e le caratteristiche dell'attività Profiling dati.This topic only describes the the features and requirements of the Data Profiling task. Per la procedura dettagliata relativa all'uso dell'attività Profiling dati, vedere la sezione Attività Profiling dati e visualizzatore.For a walkthrough of how to use the Data Profiling task, see the section, Data Profiling Task and Viewer.

Requisiti e limitazioniRequirements and Limitations

L'attività Profiling dati funziona solo con i dati archiviati in SQL ServerSQL Server.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. L'attività non funziona con origini dati di terze parti o basate su file.This task does not work with third-party or file-based data sources.

Per eseguire un pacchetto contenente l'attività Profiling dati, inoltre, è necessario utilizzare un account che disponga di autorizzazioni di lettura/scrittura per il database tempdb.Furthermore, to run a package that contains the Data Profiling task, you must use an account that has read/write permissions, including CREATE TABLE permissions, on the tempdb database.

Visualizzatore profiler datiData Profiler Viewer

Dopo avere utilizzato l'attività per calcolare i profili dei dati e salvare tali profili in un file, è possibile utilizzare il Visualizzatore profilo dati autonomo per esaminare l'output del profilo.After using the task to compute data profiles and save them in a file, you can use the stand-alone Data Profile Viewer to review the profile output. Il Visualizzatore profilo dati supporta anche la funzione drill-down che consente di analizzare i problemi di qualità dei dati identificati nell'output del profilo.The Data Profile Viewer also supports drilldown capability to help you understand data quality issues tha are identified in the profile output. Per altre informazioni, vedere Visualizzatore profilo dati.For more information, see Data Profile Viewer.

Importante

Il file di output potrebbe contenere dati sensibili relativi al database e i dati inclusi nel database.The output file might contain sensitive data about your database and the data that the database contains. Per suggerimenti su come migliorare la sicurezza di questo file, vedere Accesso ai file utilizzati dai pacchetti.For suggestions about how to make this file more secure, see Access to Files Used by Packages.

La funzionalità di drill-down, disponibile nel Visualizzatore profilo dati, consente di inviare query in tempo reale all'origine dati originale.The drilldown capability, that is available in the Data Profile Viewer, sends live queries to the original data source.

Profili disponibiliAvailable Profiles

L'attività Profiling dati consente di calcolare otto profili dati diversi.The Data Profiling Task can compute eight different data profiles. Cinque di questi profili analizzano singole colonne e i tre rimanenti analizzano più colonne o relazioni tra colonne e tabelle.Five of these profiles analyze individual columns, and the remaining three analyze multiple columns or relationships between columns and tables.

Nei cinque profili seguenti vengono analizzate colonne singole.The following five profiles analyze individual columns.

Profili che analizzano colonne singoleProfiles that analyze individual columns DescriptionDescription
Profilo Distribuzione lunghezze di colonnaColumn Length Distribution Profile Segnala tutte le singole lunghezze dei valori stringa nella colonna selezionata e la percentuale di righe nella tabella che ogni lunghezza rappresenta.Reports all the distinct lengths of string values in the selected column and the percentage of rows in the table that each length represents.

Questo profilo consente di identificare problemi nei dati, ad esempio valori non validi.This profile helps you identify problems in your data, such as values that are not valid. Si analizza, ad esempio, una colonna che contiene i codici degli stati degli Stati Uniti a due caratteri e si individuano valori con lunghezza superiore a due caratteri.For example, you profile a column of United States state codes that should be two characters and discover values longer than two characters.
Profilo Rapporto di valori Null nella colonnaColumn Null Ratio Profile Segnala la percentuale di valori Null nella colonna selezionata.Reports the percentage of null values in the selected column.

Questo profilo consente di identificare problemi nei dati, ad esempio un rapporto di valori di colonna Null inaspettatamente elevato.This profile helps you identify problems in your data, such as an unexpectedly high ratio of null values in a column. Si analizza, ad esempio, una colonna contenente CAP e si individua una percentuale eccessivamente elevata di codici mancanti.For example, you profile a Zip Code/Postal Code column and discover an unacceptably high percentage of missing codes.
Profilo Criteri di ricerca colonnaColumn Pattern Profile Segnala un set di espressioni regolari che coprono la percentuale specificata di valori in una colonna stringa.Reports a set of regular expressions that cover the specified percentage of values in a string column.

Questo profilo consente di identificare problemi nei dati, ad esempio stringhe non valide.This profile helps you identify problems in your data, such as string that are not valid. Questo profilo può inoltre indicare espressioni regolari che possono essere utilizzate in futuro per convalidare nuovi valori.This profile can also suggest regular expressions that can be used in the future to validate new values. Ad esempio, un profilo di criteri di ricerca di una colonna Codice postale (Stati Uniti) può produrre le espressioni regolari seguenti: \d{5}-\d{4}, \d{5}, and \d{9}.For example, a pattern profile of a United States Zip Code column might produce the regular expressions: \d{5}-\d{4}, \d{5}, and \d{9}. Se vengono visualizzate altre espressioni regolari, è probabile che i dati contengano valori non validi o in formato non corretto.If you see other regular expressions, your data likely contains values that are not valid or in an incorrect format.
Profilo Statistiche di colonnaColumn Statistics Profile Segnala le statistiche, ad esempio la deviazione minima, massima, media e standard per le colonne numeriche e minima e massima per le colonne di tipo datetime .Reports statistics, such as minimum, maximum, average, and standard deviation for numeric columns, and minimum and maximum for datetime columns.

Questo profilo consente di identificare problemi nei dati, ad esempio date non valide.This profile helps you identify problems in your data, such as dates that are not valid. Si analizza, ad esempio, una colonna di date cronologiche e si individua una data massima successiva alla data corrente.For example, you profile a column of historical dates and discover a maximum date that is in the future.
Profilo Distribuzione valori di colonnaColumn Value Distribution Profile Segnala tutti i valori distinct nella colonna selezionata e la percentuale di righe nella tabella che ogni valore rappresenta.Reports all the distinct values in the selected column and the percentage of rows in the table that each value represents. Può inoltre segnalare valori che rappresentano più di una percentuale specificata di righe nella tabella.Can also report values that represent more than a specified percentage of rows in the table.

Questo profilo consente di identificare problemi nei dati, ad esempio un numero non corretto di valori distinct in una colonna.This profile helps you identify problems in your data, such as an incorrect number of distinct values in a column. Si analizza, ad esempio, una colonna che si suppone contenga gli stati degli Stati Uniti e si individuano più di 50 valori distinct.For example, you profile a column that is supposed to contain states in the United States and discover more than 50 distinct values.

I seguenti tre profili analizzano più colonne o relazioni tra colonne e tabelle.The following three profiles analyze multiple columns or relationships between columns and tables.

Profili che consentono di analizzare più colonneProfiles that analyze multiple columns DescriptionDescription
Profilo Chiave candidataCandidate Key Profile Segnala se una colonna o un set di colonne è una chiave o una chiave approssimativa, per la tabella selezionata.Reports whether a column or set of columns is a key, or an approximate key, for the selected table.

Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori duplicati in una potenziale colonna chiave.This profile also helps you identify problems in your data, such as duplicate values in a potential key column.
Profilo Dipendenza funzionaleFunctional Dependency Profile Segnala la misura in cui i valori in una colonna (la colonna dipendente) dipendono dai valori in un'altra colonna o in un set di colonne (la colonna determinante).Reports the extent to which the values in one column (the dependent column) depend on the values in another column or set of columns (the determinant column).

Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori non validi.This profile also helps you identify problems in your data, such as values that are not valid. Si analizza, ad esempio, la dipendenza tra una colonna che contiene i codici postali ZIP (Stati Uniti) e una colonna che contiene gli stati degli Stati Uniti.For example, you profile the dependency between a column that contains United States Zip Codes and a column that contains states in the United States. Benché uno stesso codice postale debba essere sempre associato allo stesso stato, il profilo individua alcune violazioni di questa dipendenza.The same Zip Code should always have the same state, but the profile discovers violations of this dependency.
Profilo di inclusione di valoriValue Inclusion Profile Consente di calcolare la sovrapposizione nei valori tra due colonne o set di colonne.Computes the overlap in the values between two columns or sets of columns. Questo profilo può determinare se una colonna o un set di colonne è adatto per fungere da chiave esterna tra le tabelle selezionate.This profile can determine whether a column or set of columns is appropriate to serve as a foreign key between the selected tables.

Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori non validi.This profile also helps you identify problems in your data, such as values that are not valid. Si analizza, ad esempio, la colonna ProductID di una tabella Sales e si individua che la colonna contiene valori non disponibili nella colonna ProductID della tabella Products.For example, you profile the ProductID column of a Sales table and discover that the column contains values that are not found in the ProductID column of the Products table.

Prerequisiti per un profilo validoPrerequisites for a Valid Profile

Un profilo non è valido se non vengono selezionate tabelle e colonne non vuote e colonne che contengono tipi di dati validi per il profilo.A profile is not valid unless you select tables and columns that are not empty, and the columns contain data types that are valid for the profile.

Tipi di dati validiValid Data Types

Alcuni dei profili disponibili sono significativi solo per determinati tipi di dati.Some of the available profiles are meaningful only for certain data types. Ad esempio, il calcolo di un profilo di criteri di ricerca colonna per una colonna che contiene valori numerici o datetime non è significativo eFor example, computing a Column Pattern profile for a column that contains numeric or datetime values is not meaningful. quindi tale profilo non è valido.Therefore, such a profile is not valid.

ProfiloProfile Tipi di dati validiValid Data Types
ColumnStatisticsProfileColumnStatisticsProfile Colonne di tipo numerico o datetime (nessuna colonna mean e stddev per datetime )Columns of numeric type or datetime type (no mean and stddev for datetime column)
ColumnNullRatioProfileColumnNullRatioProfile Tutte le colonneAll columns
ColumnValueDistributionProfileColumnValueDistributionProfile Colonne di tipo integer , tipo char e tipo datetimeColumns of integer type, char type, and datetime type
ColumnValueDistributionProfileColumnLengthDistributionProfile Colonne di tipo charColumns of char type
ColumnPatternProfileColumnPatternProfile Colonne di tipo charColumns of char type
CandidateKeyProfileCandidateKeyProfile Colonne di tipo integer , tipo char e tipo datetimeColumns of integer type, char type, and datetime type
FunctionalDependencyProfileFunctionalDependencyProfile Colonne di tipo integer , tipo char e tipo datetimeColumns of integer type, char type, and datetime type
InclusionProfileInclusionProfile Colonne di tipo integer , tipo char e tipo datetimeColumns of integer type, char type, and datetime type

* Nella tabella precedente di tipi di dati validi, i tipi integer, char, datetimee numeric includono i tipi di dati specifici seguenti:* In the previous table of valid data types, the integer, char, datetime, and numeric types include the following specific data types:

I tipi integer includono bit, tinyint, smallint, inte bigint.Integer types include bit, tinyint, smallint, int, and bigint.

I tipi di carattere includono char, nchar, varchare nvarchar , ma non varchar(max) e nvarchar(max).Character types include char, nchar, varchar, and nvarchar, but do not include varchar(max) and nvarchar(max).

I tipi di data e ora includono datetime, smalldatetimee timestamp.Date and time types include datetime, smalldatetime, and timestamp.

I tipi numerici includono integer (tranne bit), money, smallmoney, decimal, float, reale numeric.Numeric types include integer types (except bit), money, smallmoney, decimal, float, real, and numeric.

** image, text, XML, udte variant non sono supportati per profili diversi dal profilo del rapporto di valori di colonna Null.** image, text, XML, udt, and variant types are not supported for profiles other than the Column Null Ratio Profile.

Tabelle e colonne valideValid Tables and Columns

Se la tabella o la colonna è vuota, l'attività Profiling dati esegue le seguenti azioni:If the table or column is empty, the Data Profiling takes the following actions:

  • Quando la tabella o la vista selezionata è vuota, l'attività Profiling dati non calcola i profili.When the selected table or view is empty, the Data Profiling task does not compute any profiles.

  • Quando tutti i valori nella colonna selezionata sono Null, l'attività Profiling dati calcola solo il profilo del rapporto di valori di colonna Null.When all the values in the selected column are null, the Data Profiling task computes only the Column Null Ratio profile. L'attività non calcola il profilo della distribuzione della lunghezza di colonna, il profilo criteri di ricerca colonna, il profilo di statistiche di colonna o il profilo di distribuzione dei valori di colonna.The task does not compute the Column Length Distribution profile, Column Pattern profile, Column Statistics profile, or Column Value Distribution profile.

Caratteristiche dell'attività Profiling datiFeatures of the Data Profiling Task

L'attività Profiling dati presenta le seguenti opzioni di configurazione di facile utilizzo:The Data Profiling task has these convenient configuration options:

  • Colonne jolly Quando si configura una richiesta di profilo, l'attività accetta il carattere jolly (*) al posto del nome di colonna.Wildcard columns When you are configuring a profile request, the task accepts the (*) wildcard in place of a column name. In questo modo viene semplificata la configurazione e diventa più facile individuare le caratteristiche dei dati non noti.This simplifies the configuration and makes it easier to discover the characteristics of unfamiliar data. Quando viene eseguita l'attività, è possibile analizzare ciascuna colonna che presenta un tipo di dati adatto.When the task runs, the task profiles every column that has an appropriate data type.

  • Profilo rapido You can select Profilo rapido to configure the task quickly.Quick Profile You can select Quick Profile to configure the task quickly. Un profilo rapido analizza una tabella o una vista utilizzando tutti i profili e le impostazioni predefiniti.A Quick Profile profiles a table or view by using all the default profiles and default settings.

Messaggi di registrazione personalizzati disponibili nell'attività Profiling datiCustom Logging Messages Available on the Data Profililng Task

Nella tabella seguente sono elencate le voci di log personalizzate disponibili per l'attività Profiling dati.The following table lists the custom log entries for the Data Profiling task. Per altre informazioni, vedere registrazione di Integration Services (SSIS).For more information, see Integration Services (SSIS) Logging.

Voce di logLog entry DescriptionDescription
DataProfilingTaskTraceDataProfilingTaskTrace Fornisce informazioni descrittive sullo stato dell'attività.Provides descriptive information about the status of the task. I messaggi includono le informazioni seguenti:Messages include the following information:

Avvio elaborazione richiesteStart Processing Requests

Inizio queryQuery Start

Query EndQuery End

Fine calcolo richiestaFinish Computing Request

Output e relativo schemaOutput and Its Schema

L'attività Profiling dati restituisce i profili selezionati in un formato XML strutturato in base allo schema DataProfile.xsd.The Data Profiling task outputs the selected profiles into XML that is structured according to the DataProfile.xsd schema. È possibile specificare se questo output XML è salvato in un file o in una variabile del pacchetto.You can specify whether this XML output is saved in a file or in a package variable. È possibile visualizzare questo schema online all'indirizzo http://schemas.microsoft.com/sqlserver/2008/DataDebugger/.You can view this schema online at http://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Nella pagina Web è possibile salvare una copia locale dello schema.From the webpage, you can save a local copy of the schema. È quindi possibile visualizzare la copia locale dello schema in Microsoft Visual StudioVisual Studio o in un altro editor di schemi, in un editor XML o in un editor di testo come Blocco note.You can then view the local copy of the schema in Microsoft Visual StudioVisual Studio or another schema editor, in an XML editor, or in a text editor such as Notepad.

Questo schema per informazioni sulla qualità dei dati può essere utile per:This schema for data quality information could be useful for:

  • Scambio delle informazioni sulla qualità di dati all'interno delle organizzazioni e tra organizzazioni diverse.Exchanging data quality information within and across organizations.

  • Compilazione di strumenti personalizzati da utilizzare con le informazioni sulla qualità dei dati.Building custom tools that work with data quality information.

    Lo spazio dei nomi di destinazione è identificato nello schema come http://schemas.microsoft.com/sqlserver/2008/DataDebugger/.The target namespace is identified in the schema as http://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Output nel flusso di lavoro condizionale di un pacchettoOutput in the Conditional Workflow of a Package

I componenti di profiling dei dati non includono la funzionalità predefinita per implementare la logica condizionale nel flusso di lavoro del pacchetto di Integration ServicesIntegration Services basata sull'output dell'attività Profiling dati.The data profiling components do not include built-in functionality to implement conditional logic in the workflow of the Integration ServicesIntegration Services package based on the output of the Data Profiling task. È tuttavia facile aggiungere questa logica con una programmazione minima in un'attività Script.However, you can easily add this logic, with a minimal amount of programming, in a Script task. Con questo codice verrebbe eseguita una query XPath sull'output XML e quindi il risultato verrebbe salvato in una variabile del pacchetto.This code would perform an XPath query against the XML output, and then save the result in a package variable. I vincoli di precedenza che collegano l'attività Script alle attività successive possono utilizzare un'espressione per determinare il flusso di lavoro.Precedence constraints that connect the Script task to subsequent tasks can use an expression to determine the workflow. Ad esempio, l'attività Script rileva che la percentuale di valori Null in una colonna supera una determinata soglia.For example, the Script task detects that the percentage of null values in a column exceeds a certain threshold. Quando questa condizione è vera, potrebbe essere necessario interrompere il pacchetto e risolvere il problema prima di continuare.When this condition is true, you might want to interrupt the package and resolve the problem before continuing.

Configurazione dell'attività Profiling datiConfiguration of the Data Profiling Task

Configurare l'attività Profiling dati utilizzando Editor attività Profiling dati.You configure the Data Profiling task by using the Data Profiling Task Editor. L'editor è composto da due pagine:The editor has two pages:

Pagina GeneraleGeneral Page
Nella pagina Generale viene specificato il file di output o la variabile.On the General page, you specify the output file or variable. È inoltre possibile selezionare Profilo rapido per configurare rapidamente l'attività per il calcolo dei profili utilizzando le impostazioni predefinite.You can also select Quick Profile to configure the task quickly to compute profiles by using the default settings. Per altre informazioni, vedere Form profilo rapido singola tabella (Attività Profiling dati).For more information, see Single Table Quick Profile Form (Data Profiling Task).

Pagina Richieste del profiloProfile Requests Page
Nella pagina Richieste profilo specificare l'origine dati e quindi selezionare e configurare i profili dei dati che si vogliono calcolare.On the Profile Requests page, you specify the data source, and select and configure the data profiles that you want to compute. Per ulteriori informazioni sui diversi profili che è possibile configurare, vedere gli argomenti seguenti:For more information about the various profiles that you can configure, see the following topics: