Corrispondenza di datiData Matching

Il processo di corrispondenza tra dati Data Quality ServicesData Quality Services (DQS) consente di ridurre la duplicazione dei dati e di migliorarne l'accuratezza in un'origine dati.The Data Quality ServicesData Quality Services (DQS) data matching process enables you to reduce data duplication and improve data accuracy in a data source. Il processo analizza il livello di duplicazione in tutti i record di una singola origine dati, restituendo le probabilità ponderate di una corrispondenza per ciascun set di record confrontato.Matching analyzes the degree of duplication in all records of a single data source, returning weighted probabilities of a match between each set of records compared. È possibile quindi decidere quali record corrispondono ed eseguire le azioni appropriate sui dati di origine.You can then decide which records are matches and take the appropriate action on the source data.

Il processo di corrispondenza DQS offre i vantaggi seguenti:The DQS matching process has the following benefits:

  • L'individuazione delle corrispondenze consente di eliminare le differenze tra valori di dati che devono essere uguali, determinando il valore corretto e riducendo il numero di errori che può essere causato dalle differenze nei dati.Matching enables you to eliminate differences between data values that should be equal, determining the correct value and reducing the errors that data differences can cause. Nomi e indirizzi, ad esempio, sono spesso i dati identificativi per un'origine dati, e più in particolare dati sul cliente, tuttavia tali dati possono subire modifiche e deteriorarsi nel tempo.For example, names and addresses are often the identifying data for a data source, particularly customer data, but the data can become dirty and deteriorate over time. L'esecuzione del processo di individuazione delle corrispondenze per identificare e correggere questi errori può semplificare notevolmente l'utilizzo e la manutenzione dei dati.Performing matching to identify and correct these errors can make data use and maintenance much easier.

  • L'individuazione delle corrispondenze consente di garantire l'uniformità di valori che risultano equivalenti, ma che sono stati immessi in formati o stili diversi.Matching enables you to ensure that values that are equivalent, but were entered in a different format or style, are rendered uniform.

  • L'individuazione delle corrispondenze identifica le corrispondenze esatte e quelle approssimative, consentendo la rimozione dei dati duplicati in base al criterio che si è stabilito.Matching identifies exact and approximate matches, enabling you to remove duplicate data as you define it. È possibile definire il punto oltre cui una corrispondenza approssimativa non è più da considerarsi una corrispondenza effettiva.You define the point at which an approximate match is in fact a match. Si definiscono quindi i campi da valutare per la corrispondenza e quelli da escludere dalla valutazione.You define which fields are assessed for matching, and which are not.

  • DQS consente di creare criteri di corrispondenza utilizzando un processo computerizzato, di modificarlo in modo interattivo in base ai risultati di corrispondenza e di aggiungerlo a una Knowledge Base riutilizzabile.DQS enables you to create a matching policy using a computer-assisted process, modify it interactively based upon matching results, and add it to a knowledge base that is reusable.

  • È possibile reindicizzare dati copiati dall'origine alla tabella di staging oppure non reindicizzarli, a seconda dello stato dei criteri di corrispondenza e dei dati di origine.You can re-index data copied from the source to the staging table, or not re-index, depending on the state of the matching policy and the source data. Le prestazioni potrebbero risultare migliorate se si evita la reindicizzazione.Not re-indexing can improve performance.

    È possibile eseguire il processo di corrispondenza insieme agli altri processi di pulizia dei dati per migliorare la qualità generale dei dati.You can perform the matching process in conjunction with other data cleansing processes to improve overall data quality. È inoltre possibile eseguire la deduplicazione dei dati utilizzando la funzionalità DQS incorporata in Master Data Services.You can also perform data de-duplication using DQS functionality built into Master Data Services. Per altre informazioni, vedere Panoramica di Master Data Services (MDS).For more information, see Master Data Services Overview (MDS).

    Nella figura seguente viene illustrata la modalità di individuazione delle corrispondenze tra dati in DQS:The following illustration displays how data matching is done in DQS:

    Processo di corrispondenza in DQSMatching Process in DQS

Come eseguire la corrispondenza di datiHow to Perform Data Matching

Come per altri processi correlati qualità dei dati in DQS, l'individuazione di corrispondenze tra dati viene eseguita compilando una Knowledge Base ed eseguendo un'attività corrispondente in un progetto di qualità dei dati osservando i passaggi seguenti:As with other data quality processes in DQS, you perform matching by building a knowledge base and executing a matching activity in a data quality project in the following steps:

  1. Creare criteri di corrispondenza nella Knowledge BaseCreate a matching policy in the knowledge base

  2. Eseguire un processo di deduplicazione in un'attività corrispondente che è parte di un progetto di qualità dei dati.Perform a de-duplication process in a matching activity that is part of a data quality project.

Compilazione di criteri di corrispondenzaBuilding a Matching Policy

Preparare la Knowledge Base per l'esecuzione degli abbinamenti creando criteri di corrispondenza nella Knowledge Base stessa, così da definire la modalità con cui DQS assegna le probabilità di corrispondenza.You prepare the knowledge base for performing matching by creating a matching policy in the knowledge base to define how DQS assigns matching probability. I criteri di corrispondenza sono costituiti da una o più le regole di corrispondenza che identificano i domini che verranno utilizzati da DQS per la valutazione della corrispondenza tra due record e specificano l'importanza da assegnare a ciascun valore di dominio nella valutazione della corrispondenza stessa.A matching policy consists of one or more matching rules that identify which domains will be used when DQS assesses how well one record matches to another, and specify the weight that each domain value carries in the matching assessment. Specificare nelle regole se i valori di dominio devono essere una corrispondenza esatta o se possono essere solo simili e specificare il livello di similitudine.You specify in the rule whether domain values have to be an exact match or can just be similar, and to what degree of similarity. Specificare inoltre se una corrispondenza di dominio è un prerequisito.You also specify whether a domain match is a prerequisite.

L'attività dei criteri di corrispondenza nella procedura guidata Gestione Knowledge Base analizza i dati di esempio applicando ogni regola di corrispondenza per confrontare record per volta in tutto l'intervallo di record.The matching policy activity in the Knowledge Base Management wizard analyzes sample data by applying each matching rule to compare two records at a time throughout the range of records. I record i cui punteggi di corrispondenza sono maggiori di un minimo specificato vengono raggruppati in cluster nei risultati di corrispondenza.Records whose matching scores are greater than a specified minimum are grouped in clusters in the matching results. Questi risultati di corrispondenza non vengono aggiunti alla Knowledge Base, vengono bensì utilizzati al fine di ottimizzare le regole di corrispondenza.These matching results are not added to the knowledge base; you use them to tune the matching rules. La creazione di criteri di corrispondenza può essere un processo iterativo nel quale si modificano le regole di corrispondenza in base ai risultati di corrispondenza o a statistiche di profiling.Creating a matching policy can be an iterative process in which you modify matching rules based on the matching results or profiling statistics.

Per un dominio è possibile specificare che le stringhe di dati vengano normalizzate quando si caricano dati nel dominio dall'origine dati.You can specify for a domain that data strings will be normalized when you load data from the data source into the domain. Questo processo è costituito dalla sostituzione dei caratteri speciali con valori null o spazi, il che spesso rimuove la differenza tra due stringhe.This process consists of replacing special characters with a null or a space, which often removes the difference between two strings. Ciò può aumentare la precisione della corrispondenza e può spesso consentire a un risultato di corrispondenza di superare la soglia di corrispondenza minima, laddove senza normalizzazione tale risultato non raggiungerebbe tale soglia.This can increase matching accuracy, and can often enable a matching result to surpass the minimum matching threshold, when without normalization it would not pass.

Nota

I valori null nei campi corrispondenti di due record verranno considerati come una corrispondenza.Null values in the corresponding fields of two records will be considered a match.

I criteri di corrispondenza vengono eseguiti su domini di cui è stato eseguito il mapping ai dati di esempio.The matching policy is run on domains mapped to the sample data. È possibile specificare se i dati vanno o meno copiati dall'origine dati nella tabella di staging e reindicizzati quando si eseguono i criteri di corrispondenza.You can specify whether data is copied from the data source into the staging table and re-indexed when you run the matching policy, or not. Ciò è possibile sia quando si compila la Knowledge Base che quando si esegue il progetto corrispondente.You can do so both when building the knowledge base and when running the matching project. Le prestazioni possono risultare migliorate se si evita la reindicizzazione.Not re-indexing could result in improved performance. La reindicizzazione non è necessaria se le condizioni seguenti sono vere: i criteri di corrispondenza non sono cambiati e non è stata aggiornata l'origine dati, né rieseguito il mapping dei criteri, né selezionata una nuova origine dati, né eseguito il mapping di uno o più nuovi domini.Re-indexing is not necessary if the following is true: the matching policy has not changed, and you have not updated the data source, remapped the policy, selected a new data source, or mapped one or more new domains.

Al momento della creazione, ogni regola di corrispondenza viene salvata nella Knowledge Base.Each matching rule is saved in the knowledge base when it is created. Tuttavia, una Knowledge Base può essere disponibile per l'uso in un progetto Data Quality solo quando viene pubblicata.However, a knowledge base is available for use in a data quality project only when it is published. Inoltre, fino al momento della pubblicazione della Knowledge Base, le regole di corrispondenza presenti in quest'ultima non possono essere modificate da un utente diverso da quello che l'ha creata.In addition, until the knowledge base is published, the matching rules in it cannot be changed by a user other than the person who created it.

Esecuzione di un progetto corrispondenteRunning a Matching Project

DQS esegue la deduplicazione dei dati confrontando ogni riga nei dati di origine con tutte le altre righe, utilizzando i criteri di corrispondenza definiti nella Knowledge Base e producendo una probabilità che le righe presentino una corrispondenza.DQS performs data de-duplication by comparing each row in the source data to every other row, using the matching policy defined in the knowledge base, and producing a probability that the rows are a match. Ciò è possibile in un progetto Data Quality dotato di un tipo di corrispondenza.This is done in a data quality project with a type of Matching. L'individuazione delle corrispondenze è uno dei passaggi principali in un progetto Data Quality.Matching is one of the major steps in a data quality project. È opportuno eseguirlo dopo la pulizia dei dati, in modo che il confronto possa avere luogo tra dati privi di errori.It is best performed after data cleansing, so that the data to be matched is free from error. Prima di eseguire un processo di corrispondenza, è possibile esportare i risultati del progetto di pulizia in una tabella dati o in un file csv, quindi creare un progetto corrispondente nel quale si esegue il mapping dei risultati della pulizia ai domini del progetto corrispondente.Before running a matching process, you can export the results of the cleansing project into a data table or .csv file, and then create a matching project in which you map the cleansing results to domains in the matching project.

Un progetto di corrispondenza dei dati è costituito da un processo computerizzato e da un processo interattivo.A data matching project consists of a computer-assisted process and an interactive process. Il progetto corrispondente applica le regole di corrispondenza nei criteri di corrispondenza all'origine dati da valutare.The matching project applies the matching rules in the matching policy to the data source to be assessed. Tale processo consente di valutare le probabilità che due righe coincidano tramite un punteggio di corrispondenza.This process assesses the likelihood that any two rows are matches in a matching score. Verranno considerati corrispondenti solo i record con probabilità di corrispondenza maggiori di un valore impostato dall'amministratore dei dati nei criteri di corrispondenza.Only those records with a probability of a match greater than a value set by the data steward in the matching policy will be considered a match.

Quando DQS esegue l'analisi di corrispondenza, viene creato un cluster di record che DQS considera corrispondenze.When DQS performs the matching analysis, it creates clusters of records that DQS considers matches. DQS identifica casualmente uno dei record in ogni cluster come record pivot o principale.DQS randomly identifies one of the records in each cluster as the pivot, or leading, record. L'amministratore dei dati verifica i risultati corrispondenti e rifiuta qualsiasi record che non rappresenti una corrispondenza appropriata per un cluster.The data steward verifies the matching results, and rejects any record that is not an appropriate match for a cluster. L'amministratore dei dati seleziona quindi una regola di sopravvivenza che DQS utilizzerà per determinare il record che supererà il processo di corrispondenza e sostituirà i record corrispondenti.The data steward then selects a survivorship rule that DQS will use to determine the record that will survive the matching process and replace the matching records. La regola di sopravvivenza può essere "Record pivot" (il valore predefinito), "Il record più completo e più lungo", "Record più completo" o "Record più lungo".The survivorship rule can be “Pivot record” (the default), “most complete and longest record”, “most complete record”, or “longest record”. DQS determina il record superstite (principale) in ogni cluster in base al record che più si avvicina a soddisfare il criterio o criteri della regola di sopravvivenza.DQS determines the survivor (leading) record in each cluster based upon which record most closely matches the criteria or criterion in the survivorship rule. Se più record in un cluster specifico sono conformi alla regola di sopravvivenza, DQS ne seleziona uno in modo casuale.If multiple records in a given cluster comply with the survivorship rule, DQS selects one of those records randomly. DQS consente di visualizzare i cluster che presentano record comuni come un solo cluster mediante la selezione dell'opzione "Mostra cluster non sovrapposti".DQS gives you the choice of displaying clusters that have records in common as a single cluster by selecting “show non-overlapping clusters”. Per visualizzare i risultati in base questa impostazione, il processo di corrispondenza deve essere eseguito.You must execute the matching process in order to display the results according to this setting.

È possibile esportare i risultati del processo di corrispondenza in una tabella di SQL Server o in un file csv.You can export the results of the matching process either to a SQL Server table or a .csv file. È possibile esportare risultati della corrispondenza in due modi: record corrispondenti e record non corrispondenti, oppure record superstiti che includono solo il record superstite per un cluster nonché i risultati non corrispondenti.You can export matching results in two forms: first, the matched records and the unmatched records, or second, survivorship records that include only the survivor record for a cluster and the unmatched results. Nei record superstiti, se lo stesso record viene identificato come superstite per più cluster, tale record verrà esportato solo una volta.In the survivorship records, if the same record is identified as the survivor for multiple clusters, that record will only be exported once.

Argomenti della sezioneIn This Section

È possibile eseguire le attività seguenti in relazione all'individuazione di corrispondenze in DQS:You can perform the following tasks related to matching in DQS:

Creare e testare regole di corrispondenza in criteri di corrispondenzaCreate and test matching rules in a matching policy Creare criteri di corrispondenzaCreate a Matching Policy
Eseguire l'individuazione delle corrispondenze in un progetto Data QualityRun matching in a data quality project Eseguire un progetto corrispondenteRun a Matching Project