Pulizia dei datiData Cleansing

La pulizia dei dati è il processo di analisi della qualità dei dati in un'origine dati, con l'approvazione o il rifiuto manuale dei suggerimenti del sistema e la conseguente modifica dei dati.Data cleansing is the process of analyzing the quality of data in a data source, manually approving/rejecting the suggestions by the system, and thereby making changes to the data. La pulizia dei dati in Data Quality ServicesData Quality Services (DQS) include un processo assistito da computer, che analizza la conformità dei dati alle informazioni in una Knowledge Base, e un processo interattivo, che consente all'amministratore dei dati di rivedere e modificare i risultati del processo assistito da computer per assicurarsi che la pulizia dei dati risponda esattamente alle aspettative.Data cleansing in Data Quality ServicesData Quality Services (DQS) includes a computer-assisted process that analyzes how data conforms to the knowledge in a knowledge base, and an interactive process that enables the data steward to review and modify computer-assisted process results to ensure that the data cleansing is exactly as they want to be done.

L'amministratore dei dati può anche eseguire la pulizia dei dati durante il processo di creazione dei pacchetti di Integration Services.The data steward can also perform data cleansing in the Integration Services packaging process. In questo caso, l'amministratore dei dati utilizza il Componente Pulizia DQS in Integration ServicesDQS Cleansing component in Integration Services che permette di eseguire automaticamente la pulizia dei dati tramite una Knowledge Base esistente.In this case, the data steward would use the Componente Pulizia DQS in Integration ServicesDQS Cleansing component in Integration Services that automatically performs data cleansing using an existing knowledge base. Per altre informazioni, vedere Trasformazione DQS Cleansing.For more information, see DQS Cleansing Transformation.

La funzionalità di pulizia dei dati in DQS offre i vantaggi seguenti:The data cleansing feature in DQS has the following benefits:

  • Identifica dati incompleti o errati nell'origine dati (file di Excel o database SQL Server), quindi effettua le correzioni o avvisa in caso di dati non validi.Identifies incomplete or incorrect data in your data source (Excel file or SQL Server database), and then corrects or alerts you about the invalid data.

  • Fornisce un processo a due passaggi per pulire i dati: assistito da computer e interattivo.Provides two-step process to cleanse the data: computer-assisted and interactive. Nel processo assistito da computer vengono utilizzate le informazioni di una Knowledge Base DQS per elaborare automaticamente i dati e vengono suggerite sostituzioni/correzioni.The computer-assisted process uses the knowledge in a DQS knowledge base to automatically process the data, and suggest replacements/corrections. Nel passaggio interattivo successivo l'amministratore dei dati può approvare, rifiutare o modificare le modifiche proposte da DQS nel corso della pulizia assistita da computer.The next step, interactive, allows the data steward to approve, reject, or modify the changes proposed by the DQS during the computer-assisted cleansing.

  • Standardizza e arricchisce dati dei clienti tramite valori e regole di dominio e dati di riferimento.Standardizes and enriches customer data by using domain values, domain rules, and reference data. Un esempio può essere la standardizzazione del termine "Lgo"For example, standardize term usage by changing “St.” in "Largo" o l'arricchimento dei dati con l'inserimento di elementi mancanti tramite la modifica di "1 Microsoft way Redmond 98006" in "1 Microsoft Way, Redmond, WA 98006, Stati Uniti".to “Street”, enrich data by filling in missing elements by changing “1 Microsoft way Redmond 98006” to “1 Microsoft Way, Redmond, WA 98006”.

  • Fornisce all'utente un'interfaccia simile a una procedura guidata semplice, intuitiva e coerente per spostarsi all'interno di dati e controllare errori in set di dati molto grandi.Provides a simple, intuitive, and consistent wizard-like interface to the user to navigate data and inspect errors amongst a very large set of data.

    Nella figura seguente viene illustrata la modalità di pulizia dei dati in DQS:The following illustration displays how data cleansing is done in DQS:

    Processo di pulizia dei dati in DQSData Cleansing Process in DQS

Pulizia assistita da computer Computer-assisted Cleansing

Tramite il processo di pulizia dei dati DQS la Knowledge Base viene applicata ai dati da pulire e vengono proposte modifiche ai dati.The DQS data cleansing process applies the knowledge base to the data to be cleansed, and proposes changes to the data. L'amministratore dei dati può accedere a ogni modifica proposta, valutando e correggendo le modifiche.The data steward has access to each proposed change, enabling him or her to assess and correct the changes. Per eseguire la pulizia dei dati, l'amministratore dei dati effettua le operazioni seguenti:To perform data cleansing, the data steward proceeds as follows:

  1. Creare un progetto Data Quality, selezionare una Knowledge Base rispetto alla quale analizzare e pulire i dati di origine e selezionare l'attività Pulizia .Create a data quality project, select a knowledge base against which you want to analyze and cleanse your source data, and select the Cleansing activity. La stessa Knowledge Base può essere utilizzata per più progetti Data Quality.Multiple data quality projects can use the same knowledge base.

  2. Specificare la tabella/vista di database o un file di Excel che contiene i dati di origine da pulire.Specify the database table/view or an Excel file that contains the source data to be cleansed. Il database o il file di Excel può corrispondere o meno a quello utilizzato per l'individuazione delle informazioni.The database or the Excel file can be the same one that was used for knowledge discovery, or it can be a different database or Excel file.

    Nota

    Se si seleziona la stessa origine dati per le attività di individuazione delle informazioni e di pulizia, non si verificheranno modifiche ai dati.If you select the same data source for knowledge discovery and cleansing activities, there will be no change to the data. Si consiglia di eseguire l'individuazione delle informazioni su dati di esempio e successivamente pulire i dati di origine rispetto alle informazioni compilate durante l'attività di individuazione delle informazioni.It is recommended that you run knowledge discovery on a sample data, and later cleanse your source data against the knowledge built during the knowledge discovery activity.

  3. Eseguire il mapping dei campi dati da pulire ai domini singoli/composti appropriati nella Knowledge Base.Map the data fields to be cleansed to appropriate domains/composite domains in the knowledge base. Se si esegue il mapping di un campo a un dominio composito, il mapping avviene tra il campo e il dominio composito e non i domini singoli nel dominio composito.If you map a field to a composite domain, the mapping happens between the field and the composite domain, and not with the individual domains in the composite domain. Inoltre, la pulizia dei dati per il campo di cui è stato eseguito il mapping viene effettuata in base alle regole specificate per il dominio composito e non per i domini singoli nel dominio composito.Also, the data cleansing for the mapped field is done based on the rules specified for the composite domain, and not for the individual domains in the composite domain. Per ulteriori informazioni sui domini compositi, vedere DQS Knowledge Bases and Domains.For more information about composite domains, see DQS Knowledge Bases and Domains.

  4. Eseguire il processo di pulizia assistita da computer facendo clic su Avvia nella pagina Pulisci .Run the computer-assisted cleansing process by clicking Start on the Cleanse page.

    Il processo di pulizia dei dati consente di trovare la corrispondenza migliore tra un'istanza di dati e valori noti del dominio di dati.The data cleansing process finds the best match of an instance of data to known data domain values. Con il processo vengono applicate le informazioni sulla qualità dei dati a tutti i dati di origine, a differenza del processo di individuazione delle informazioni che viene eseguito su una percentuale dei dati di esempio.The process applies data quality knowledge to all source data, unlike the knowledge discovery process, which runs on a percentage of the sample data.

    Il processo assistito da computer consente di visualizzare le informazioni sulla qualità dei dati nel Client Data QualityData Quality Client che verrà utilizzato per il processo interattivo di pulizia.The computer-assisted process displays data quality information in Client Data QualityData Quality Client that will be used for the interactive cleansing process. Oltre al rispetto delle regole relative agli errori di sintassi, in DQS vengono utilizzati anche dati di riferimento e algoritmi avanzati per la classificazione dei dati in base a un livello di confidenza.Apart from the adherence to the syntax error rules, DQS also uses reference data and advanced algorithms to categorize data using confidence level. Il livello di confidenza indica il grado di certezza in DQS in relazione alla correzione o al suggerimento.The confidence level indicates the extent of certainty of DQS for the correction or suggestion. Il livello di confidenza è basato sui seguenti valori soglia:The confidence level is based on the following threshold values:

  • Un valore soglia di correzione automatica sopra la quale tramite DQS viene suggerita e apportata una modifica, a meno che questa non venga rifiutata dall'amministratore dei dati.An auto-correction threshold value above which DQS will suggest a change and make it unless the data steward rejects it. È possibile specificare il valore soglia di correzione automatica nella scheda Impostazioni generali della schermata Configurazione .You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. Per ulteriori informazioni, vedere Configure Threshold Values for Cleansing and Matching.For more information, see Configure Threshold Values for Cleansing and Matching.

  • Un valore soglia di suggerimento automatico sotto la soglia di correzione automatica, sopra la quale tramite DQS viene suggerita e apportata una modifica, se l'amministratore dei dati la approva.An auto-suggestion threshold value, below the auto-correction threshold, above which DQS will suggest a change, and make it if the data steward approves it. È possibile specificare il valore soglia di suggerimento automatico nella scheda Impostazioni generali della schermata Configurazione .You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. Per ulteriori informazioni, vedere Configure Threshold Values for Cleansing and Matching.For more information, see Configure Threshold Values for Cleansing and Matching.

    Qualsiasi valore con un livello di confidenza inferiore al valore soglia di suggerimento automatico viene lasciato invariato da DQS a meno che l'amministratore dei dati specifichi una modifica.Any value having a confidence level below the auto-suggestion threshold value is left as is by DQS unless the data steward specifies a change.

Pulizia interattiva Interactive Cleansing

In base al processo di pulizia assistito da computer, all'amministratore dei dati vengono fornite le informazioni necessarie per prendere una decisione sulla modifica dei dati.Based on the computer-assisted cleansing process, DQS provides the data steward with information that they need to make a decision about changing the data. DQS consente di suddividere i dati in categorie nelle cinque schede seguenti:DQS categorizes the data under the following five tabs:

  • Suggeriti: valori per i quali sono stati trovati suggerimenti con un livello di confidenza superiore al valore soglia di suggerimento automatico ma inferiore al valore soglia di correzione automatica .Suggested: Values for which DQS found suggestions that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value. È necessario analizzare questi valori e approvarli o rifiutarli nel modo appropriato.You should review these values, and approve or reject as appropriate.

  • Nuovi: valori validi per i quali non sono disponibili informazioni sufficienti (suggerimenti) in DQS e dei quali non è pertanto possibile eseguire il mapping a nessuna altra scheda. Questa scheda contiene inoltre valori che presentano un livello di confidenza inferiore al valore soglia di suggerimento automatico, ma sufficientemente elevato per essere contrassegnati come validi.New: Valid values for which DQS does not have enough information (suggestion), and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

  • Non validi: valori contrassegnati come non validi nel dominio della Knowledge Base o valori non conformi a una regola di dominio o ai dati di riferimento.Invalid: Values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule or reference data. Questa scheda conterrà anche valori rifiutati dall'utente nelle altre quattro schede durante il processo di pulizia interattiva.This tab will also contain values that are rejected by the user in any of the other four tabs during the interactive cleansing process.

  • Con correzione: valori corretti da DQS durante il processo automatico di pulizia, nel caso in cui sia stata trovata una correzione per il valore con un livello di confidenza superiore al valore soglia di correzione automatica .Corrected: Values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value. Questa scheda conterrà anche valori per i quali l'utente ha specificato un valore corretto nella colonna Correggi in durante la pulizia interattiva e che ha quindi approvato facendo clic sul pulsante di opzione nella colonna Approva in una delle altre quattro schede.This tab will also contain values for which the user specified a correct value in the Correct To column during interactive cleansing, and then approved by clicking the radio button in the Approve column in any of the other four tabs.

  • Corretti: valori trovati corretti.Correct: Values that were found correct. Ad esempio, un valore corrispondente a un valore di dominio.For example, the value matched a domain value. Se richiesto, è possibile eseguire l'override della pulizia DQS rifiutando i valori in questa scheda o specificando una parola alternativa nella colonna Correggi in e facendo clic quindi sul pulsante di opzione nella colonna Accetta .If required, you can override DQS cleansing by rejecting values under this tab, or by specifying an alternate word in the Correct To column, and then clicking the radio button in the Accept column. Questa scheda conterrà anche valori approvati dall'utente durante la pulizia interattiva facendo clic sul pulsante di opzione nella colonna Approva nelle schede Nuovi o Non validi .This tab will also contain values that were approved by the user during interactive cleansing by clicking the radio button in the Approve column in the New or Invalid tab.

Nota

Nelle schede Suggeriti, Con correzionee Corretti viene visualizzato il valore iniziale per un dominio, se applicabile, nella colonna Correggi in rispetto al relativo valore del dominio.In the Suggested, Corrected, and Correct tabs, DQS displays the leading value for a domain, if applicable, in the Correct To column against the respective domain value.

L'amministratore dei dati utilizza il Client Data QualityData Quality Client per visualizzare le modifiche proposte da DQS e decidere se implementarle o meno.The data steward uses Client Data QualityData Quality Client to see the changes that DQS has proposed and to decide whether to implement them or not. Può verificare che i valori designati da DQS come corretti siano effettivamente corretti.He or she can verify that values DQS has designated as correct are in fact correct. Può verificare che le modifiche già apportate da DQS, con un livello di confidenza elevato, debbano essere effettivamente apportate.He or she can verify that changes already made by DQS, with a high confidence level, should be made. Può decidere se approvare le modifiche suggerite automaticamente.He or she can decide whether to approve auto-suggested changes. Infine, può rivedere i valori che non sono stati modificati, in caso desideri apportare una modifica non individuata tramite il processo assistito da computer.And he or she can review values that have not been changed, just in case they want to make a change not found by the computer-assisted process.

Tramite DQS le modifiche effettuate dall'amministratore dei dati vengono unite ai risultati della pulizia dei dati assistita da computer.DQS will merge any changes that the data steward has made with the results of the computer-assisted data cleansing. Queste modifiche vengono mantenute con il progetto, ma non vengono aggiunte alla Knowledge Base.These changes will stay with the project; however, they will not be added to the knowledge base. Durante la pulizia dei dati, la Knowledge Base associata è di sola lettura.During data cleansing, the associated knowledge base is read-only.

Quando il processo di pulizia dei dati è stato completato, è possibile scegliere di esportare i dati elaborati in una nuova tabella in un database SQL Server, un file con estensione csv o un file di Excel.When the data cleansing process has completed, you can choose to export the processed data to a new table in a SQL Server database, .csv file, or Excel file. I dati di origine su cui viene eseguita la pulizia vengono mantenuti nello stato originale.The source data on which cleansing is performed is maintained in its original state. L'amministratore dei dati può utilizzare i dati puliti separatamente per correggere i dati di origine effettivi.The data steward can use the separate cleansed data to correct the actual source data.

Nella figura seguente viene illustrata la modalità di pulizia dei dati con l'applicazione Client Data QualityData Quality Client :The following illustration displays how data cleansing is done using the Client Data QualityData Quality Client application:

Pulizia dei dati in Data Quality ClientData Cleansing in Data Quality Client

Correzione del valore iniziale Leading Value Correction

La correzione del valore iniziale si applica ai valori di dominio con sinonimi, quando l'utente desidera utilizzare uno dei sinonimi come valore iniziale, anziché altri, per rappresentare il valore in modo coerente.Leading value correction applies to domain values that have synonyms, and the user wants to use one of the synonym values as the leading value instead of others for the consistent representation of the value. Ad esempio, "New York", "NYC" e "Grande mela" sono sinonimi e l'utente desidera utilizzare "New York" come valore iniziale, anziché "NYC" e "Grande mela".For example, “New York”, “NYC”, and “big apple” are synonyms, and the user wants to use “New York” as the leading value instead of “NYC” and “Big Apple”. DQS supporta la correzione del valore iniziale durante il processo di pulizia per consentire di standardizzare i dati.DQS supports leading value correction during the cleansing process to help you standardize your data. La correzione del valore iniziale viene effettuata solo se il dominio è stato opportunamente abilitato al momento della creazione.The leading value correction is done only if the domain was enabled for the same when it was created. Per impostazione predefinita, tutti i domini sono abilitati per la correzione del valore iniziale a meno che sia stata deselezionata la casella di controllo Utilizza valori iniziali durante la creazione di un dominio.By default, all domains are enabled for leading value correction unless you cleared the Use Leading Values check box while creating a domain. Per ulteriori informazioni su questa casella di controllo, vedere Set Domain Properties.For more information about this check box, see Set Domain Properties.

Standardizzazione dei dati puliti Standardize Cleansed Data

È possibile scegliere se esportare i dati puliti nel formato standardizzato basato sul formato di output definito per i domini.You can choose whether to export the cleansed data in the standardized format based on the output format defined for domains. Durante la creazione di un dominio, è possibile selezionare la formattazione che verrà applicata alla restituzione dei valori dei dati nel dominio.While creating a domain, you can select the formatting that will be applied when the data values in the domain are output. Per ulteriori informazioni sulla specifica dei formati di output per un dominio, vedere l'elenco Formato output in in Set Domain Properties.For more information about specifying output formats for a domain, see the Format Output to list in Set Domain Properties.

Durante l'esportazione dei dati puliti nella pagina Esporta della procedura guidata di pulizia del progetto Data Quality, va specificato se si desidera che i dati puliti vengano esportati nel formato standardizzato selezionando la casella di controllo Standardizzare output .While exporting the cleansed data on the Export page in the cleansing data quality project wizard, you specify whether you want the cleansed data to be exported in the standardized format by selecting the Standardize Output check box. Per impostazione predefinita, i dati puliti vengono esportati nel formato standardizzato, cioè la casella di controllo è selezionata.By default, the cleansed data is exported in the standardized format, that is, the check box is selected. Per altre informazioni sull’esportazione dei dati puliti, vedere Pulizia dei dati mediante le informazioni interne di DQS.For more information about exporting the cleansed data, see Cleanse Data Using DQS (Internal) Knowledge.

Descrizione dell'attivitàTask Description ArgomentoTopic
Viene descritto come configurare valori soglia per l'attività di pulizia.Describes how to configure threshold values for the cleansing activity. Configure Threshold Values for Cleansing and MatchingConfigure Threshold Values for Cleansing and Matching
Viene descritto come pulire i dati utilizzando le informazioni incorporate in DQS.Describes how to cleanse data using knowledge built in DQS. Pulire i dati mediante DQS (informazioni interne)Cleanse Data Using DQS (Internal) Knowledge
Viene descritto come pulire i dati utilizzando le informazioni del servizio dati di riferimento.Describes how to cleanse data using knowledge from reference data service. Pulire i dati mediante le informazioni dei dati di riferimento (esterni)Cleanse Data Using Reference Data (External) Knowledge
Viene descritto come pulire un dominio composito.Describes how to cleanse a composite domain. Pulire i dati in un dominio compositoCleanse Data in a Composite Domain

Vedere ancheSee Also

Progetti Data Quality (DQS) Data Quality Projects (DQS)
Corrispondenza di datiData Matching