Attività Profiling dati e visualizzatoreData Profiling Task and Viewer

L'attività Profiling dati offre funzionalità di profiling dei dati all'interno del processo di estrazione, trasformazione e caricamento dei dati.The Data Profiling task provides data profiling functionality inside the process of extracting, transforming, and loading data. L'attività Profiling dati offre i vantaggi seguenti:By using the Data Profiling task, you can achieve the following benefits:

  • Analisi più efficace dei dati di origineAnalyze the source data more effectively

  • Migliore comprensione dei dati di origineUnderstand the source data better

  • Assenza di problemi di qualità dei dati prima che vengano inseriti nel data warehousePrevent data quality problems before they are introduced into the data warehouse.

Importante

L'attività Profiling dati funziona solo con i dati archiviati in SQL ServerSQL Server.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. L'attività non può essere utilizzata con origini dati di terze parti o basate su file.It does not work with third-party or file-based data sources.

Panoramica del profiling dei datiData Profiling Overview

La qualità dei dati è importante per ogni azienda.Data quality is important to every business. La compilazione da parte delle organizzazione di sistemi analitici e di Business Intelligence da integrare nei sistemi transazionali in uso fa sì che l'affidabilità degli indicatori di prestazioni chiave e delle stime basate sul modello di data mining dipenda completamente dalla validità dei dati su cui tali elementi si basano.As enterprises build analytical and business intelligence systems on top of their transactional systems, the reliability of key performance indicators and of data mining predictions depends completely on the validity of the data on which they are based. Benché l'importanza di dati validi per il processo decisionale delle aziende stia aumentando, aumenta anche la sfida posta dalla necessità di garantire la validità di tali dati.But although the importance of valid data for business decision-making is increasing, the challenge of making sure of this data's validity is also increasing. I dati affluiscono costantemente a un'organizzazione da origini e sistemi diversi e da un numero elevato di utenti.Data is streaming into the enterprise constantly from diverse systems and sources, and a large numbers of users.

Le metriche della qualità dei dati possono essere difficili da definire in quanto specifici per il dominio o l'applicazione.Metrics for data quality can be difficult to define because they are specific to the domain or the application. Un approccio comune alla definizione della qualità dei dati consiste nel profiling dei dati.One common approach to defining data quality is data profiling.

Un profilo dati è una raccolta di statistiche aggregate sui dati che possono includere gli elementi seguenti:A data profile is a collection of aggregate statistics about data that might include the following:

  • Numero di righe della tabella Customer.The number of rows in the Customer table.

  • Numero di valori distinct nella colonna State.The number of distinct values in the State column.

  • Numero di valori Null o mancanti nella colonna Zip.The number of null or missing values in the Zip column.

  • Distribuzione di valori nella colonna City.The distribution of values in the City column.

  • Livello di attendibilità della dipendenza funzionale della colonna State nella colonna Zip, ovvero lo stato deve essere sempre lo stesso per un determinato valore Zip.The strength of the functional dependency of the State column on the Zip column—that is, the state should always be the same for a given zip value.

    Le statistiche fornite dal profilo dati consentono di ottenere le informazioni necessarie per ridurre al minimo in modo efficace i possibili problemi di qualità correlati all'utilizzo di dati di origine.The statistics that a data profile provides gives you the information that you need in order to effectively minimize the quality issues that might occur from using the source data.

Integration Services e profiling datiIntegration Services and Data Profiling

In Integration ServicesIntegration Servicesil processo di profiling dei dati è costituito dai passaggi seguenti:In Integration ServicesIntegration Services, the data profiling process consist of the following steps:

Passaggio 1: Configurazione dell'attività Profiling datiStep 1: Setting up the Data Profiling Task
L'attività Profiling dati è un'attività che consente di configurare i profili che si desidera calcolare.The Data Profiling task is a task that you use to configure the profiles that you want to compute. Viene quindi eseguito il pacchetto contenente l'attività Profiling dati per calcolare i profili.You then run the package that contains the Data Profiling task to compute the profiles. L'attività salva l'output del profilo in formato XML in un file o una variabile del pacchetto.The task saves the profile output in XML format to a file or a package variable.

Per altre informazioni: Impostazione dell'attività Profiling datiFor more information: Setup of the Data Profiling Task

Passaggio 2: Controllo dei profili calcolati dall'attività Profiling datiStep 2: Reviewing the Profiles that the Data Profiling Task Computes
Per visualizzare i profili dati calcolati dall'attività Profiling dati, è necessario inviare l'output a un file e quindi utilizzare il visualizzatore del profilo dati.To view the data profiles that the Data Profiling task computes, you send the output to a file, and then you use the Data Profile Viewer. Questo visualizzatore è un'utilità autonoma che consente di visualizzare l'output del profilo in forma di riepilogo e in formato dettagliato con funzionalità di drill-down facoltative.This viewer is a stand-alone utility that displays the profile output in both summary and detail format with optional drilldown capability.

Per altre informazioni: Visualizzatore profilo datiFor more information: Data Profile Viewer

Aggiunta di logica condizionale al flusso di lavoro del profiling dei datiAddition of Conditional Logic to the Data Profiling Workflow

L'attività Profiling dati non dispone di caratteristiche incorporate che consentono di utilizzare la logica condizionale per connettere questa attività alle attività a valle basate sull'output del profilo.The Data Profiling task does not have built-in features that allow you to use conditional logic to connect this task to downstream tasks based on the profile output. È possibile, tuttavia, aggiungere tale logica in modo semplice, con operazioni di programmazione ridotte, in un'attività Script.However, you can easily add this logic, with a small amount of programming, in a Script task. L'attività Script, ad esempio, può eseguire una query XPath sul file di output dell'attività Profiling dati.For example, the Script task could perform an XPath query against the output file of the Data Profiling task. La query può determinare se la percentuale di valori Null in una colonna specifica supera una determinata soglia.The query could determine whether the percentage of null values in a particular column exceeds a certain threshold. Se la percentuale supera la soglia, è possibile interrompere il pacchetto e risolvere il problema nei dati di origine prima di continuare.If the percentage exceeds the threshold, you could interrupt the package and resolve the problem in the source data before continuing. Per altre informazioni, vedere Incorporamento di un'attività Profiling dati nel flusso di lavoro del pacchetto.For more information, see Incorporate a Data Profiling Task in Package Workflow.

Pagina relativa allo schema del profiler datiData Profiler Schema