Pulire i dati mediante le informazioni dei dati di riferimento (esterni)Cleanse Data Using Reference Data (External) Knowledge

In questo argomento viene descritto come pulire i dati utilizzando le informazioni dei provider di dati di riferimento.This topic describes how to cleanse data using knowledge from the reference data providers. Mentre tutti i passaggi per l'esecuzione di un'attività di pulizia rimangono gli stessi per la pulizia dei dati mediante le informazioni dei provider di dati di riferimento, come descritto in Pulire i dati mediante DQS (informazioni interne), in questo argomento vengono illustrate le informazioni specifiche per la pulizia dei dati mediante il servizio dati di riferimento in Data Quality ServicesData Quality Services (DQS).While all the steps of running a cleansing activity remains the same for cleansing your data using knowledge from the reference data providers as explained in the Cleanse Data Using DQS (Internal) Knowledge, this topic provides information specific to data cleansing using reference data service in Data Quality ServicesData Quality Services (DQS).

Quando in DQS si utilizza la funzionalità del servizio dati di riferimento per pulire i dati, il processo di pulizia di DQS invia i valori di dominio di cui è stato eseguito il mapping al provider del servizio dati di riferimento come richiesta batch.When you use the reference data service feature in DQS to cleanse your data, the DQS cleansing process sends the mapped domain values to the reference data service provider as a batch request. Il servizio dati di riferimento risponde con le informazioni seguenti:The reference data service responds with the following information:

  • Correzione suggeritaSuggested correction

  • ConfidenzaConfidence

  • Informazioni aggiuntive sul dominio di cui è stato eseguito il mapping.Additional information about the mapped domain. I dati di riferimento possono inoltre standardizzare, analizzare o migliorare l'origine con dati aggiuntivi.Reference data can also standardize, parse, or enrich the source with additional data. Tali informazioni vengono fornite nei campi aggiuntivi della risposta.This information is provided in additional fields in the response.

    Dopo avere ottenuto la risposta dal servizio dati di riferimento, durante l'attività di pulizia in DQS si verifica quanto segue:After getting the response from reference data service, the following happens in DQS during the cleansing activity:

  • In base ai valori Soglia di correzione automatica e Confidenza min specificati durante l'esecuzione del mapping dei domini con il servizio dati di riferimento, i valori di dominio vengono suggeriti o corretti automaticamente in base al livello di confidenza.Based on the Auto Correction Threshold and Min Confidence values specified during mapping of the domains with reference data service, domain values are automatically corrected or suggested based on the confidence level.

    Nota

    Durante la pulizia dei dati mediante le informazioni del servizio dati di riferimento vengono applicati i valori soglia specificati al momento dell'esecuzione del mapping di un dominio a un servizio dati di riferimento e non i valori specificati nella scheda Impostazioni generali della sezione Configurazione .The threshold values that you specify during mapping a domain to a reference data service are applied while cleansing data using the knowledge in reference data service, and not the ones that are specified in the General Settings tab in the Configuration section. Per informazioni su come specificare i valori soglia per la pulizia dei dati di riferimento, vedere il passaggio 9 in Collegare un dominio o un dominio composito ai dati di riferimento.For information about specifying threshold values for reference data cleansing, see step 9 in Attach Domain or Composite Domain to Reference Data.

  • I valori di dominio vengono suddivisi nelle categorie seguenti: Suggeriti, Nuovi, Non validi, Con correzionee Corretti.Domain values are categorized into the following: Suggested, New, Invalid, Corrected, and Correct.

  • I dati aggiuntivi vengono aggiunti all'origine e le informazioni sono disponibili insieme ai dati puliti per l'esportazione.Additional data is appended to the source, and the information is available along with the cleansed data for exporting.

Prima di iniziareBefore You Begin

Prerequisiti Prerequisites

È necessario avere eseguito il mapping dei domini richiesti in una Knowledge Base DQS al servizio dati di riferimento appropriato.You must have mapped required domains in a DQS knowledge base to the appropriate reference data service. La Knowledge Base deve inoltre contenere informazioni sul tipo di dati da pulire.Additionally, the knowledge base must contain knowledge about the type of data that you want to cleanse. Se si desidera pulire dati di origine che contengono indirizzi US, ad esempio, è necessario eseguire il mapping dei domini a un provider del servizio dati di riferimento che fornisce dati di alta qualità per gli indirizzi US.For example, if you want to cleanse your source data that contains US addresses, you must map your domains to a reference data service provider that provides high-quality” data for US addresses. Per altre informazioni, vedere Collegare un dominio o un dominio composito ai dati di riferimento.For more information, see Attach Domain or Composite Domain to Reference Data.

Sicurezza Security

Autorizzazioni Permissions

Per eseguire la pulizia dei dati è necessario disporre del ruolo dqs_kb_editor o dqs_kb_operator nel database DQS_MAIN.You must have the dqs_kb_editor or dqs_kb_operator role on the DQS_MAIN database to perform data cleansing.

Pulire i dati mediante le informazioni dei dati di riferimento Cleanse Your Data Using Reference Data Knowledge

Viene fatto riferimento allo stesso esempio di uso dei domini dei quali è stato eseguito il mapping nell'argomento precedente, Collegare un dominio o un dominio composito ai dati di riferimento, con il servizio Melissa Data in Microsoft Azure Marketplace.We will continue with the same example of using the domains that we mapped in the previous topic, Attach Domain or Composite Domain to Reference Data, with the Melissa Data service in Windows Azure Marketplace. Vengono utilizzati gli stessi domini per pulire alcuni indirizzi US di esempio.Now, we will use the same domains to cleanse some sample US addresses. I passaggi per pulire i dati sono uguali a quelli descritti in Pulire i dati mediante DQS (informazioni interne).The steps to cleanse data are the same as described in Cleanse Data Using DQS (Internal) Knowledge. Eventuali differenze verranno indicate durante il processo, laddove necessario.However, we will draw you attention wherever necessary during the process.

  1. Creare un progetto Data Quality e selezionare l'attività Pulizia .Create a data quality project, and select the Cleansing activity. Vedere Create a Data Quality Project.See Create a Data Quality Project.

  2. Nella pagina Mappa eseguire il mapping dei 4 domini seguenti con le colonne appropriate nei dati di origine: Riga indirizzo, Città, Statoe CAP.On the Map page, map the following 4 domains with appropriate columns in your source data: Address Line, City, State, and Zip. Fare clic su Avanti.Click Next.

    Nota

    Poiché il mapping di tutti e 4 i domini è stato eseguito all'interno del dominio composito Verifica indirizzo , la pulizia dei dati verrà eseguita a livello di dominio composito e non a livello di singolo dominio.As you have mapped all the 4 domains within the Address Verification composite domain, the data cleansing will now be done at the composite domain level, and not at the individual domain level.

  3. Nella pagina Pulizia eseguire il processo di pulizia computerizzato facendo clic su Avvia.On the Cleanse page, run the computer-assisted cleansing process by clicking Start. Al termine del processo di pulizia, fare clic su Avanti.After the cleansing process is over, click Next.

    Nota

    Nella pagina Pulisci vengono visualizzate le informazioni sui domini associati al servizio dati di riferimento nei due modi seguenti:On the Cleanse page, DQS displays information about the domains that are attached to reference data service in the following two ways:

    • Sotto il pulsante Start viene visualizzato un messaggio simile al seguente: "I domini <Domain1>, <Domain2>,...A message is displayed below the Start button: “Domains <Domain1>, <Domain2>,… <DomainN> vengono puliti utilizzando il provider di servizi di dati di riferimento".<DomainN> are cleansed using reference data service provider.” In questo esempio verrà visualizzato il messaggio seguente: "La verifica dell'indirizzo del dominio viene pulita usando il provider del servizio dati di riferimento".In this example, the following message will be displayed: “Domain Address Verification is cleansed using reference data service provider.”
      • L'icona Dominio collegato al servizio dati di riferimento viene visualizzata nell'area Profiler per i domini associati al provider del servizio dati di riferimento.An icon, Domain is attached to RDS, is displayed in the Profiler area against the domains attached to reference data service provider. Nell'esempio l'icona verrà visualizzata per il dominio composito Verifica indirizzo .In this example, the icon will be displayed against the Address Verification composite domain.
  4. Verificare i valori di dominio nella pagina Gestisci e visualizza i risultati .On the Manage and view results page, review your domain values. Il servizio dati di riferimento può visualizzare più suggerimenti, se disponibili, per un valore a seconda del numero massimo di suggerimenti specificato nella casella Candidati suggeriti durante l'esecuzione del mapping del dominio al servizio dati di riferimento.The reference data service can display more than one suggestion, if available, for a value depending upon the maximum number of suggestions specified in the Suggested Candidates box during the mapping of the domain to the reference data service. Per l'indirizzo US seguente vengono visualizzati, ad esempio, due suggerimenti:For example, two suggestions are displayed for the following US address:

    Valore originale:Original value:

    Riga indirizzoAddress Line CittàCity StatoState CAPZip
    1 msft way1 msft way RedmondRedmond 9805298052

    Valori suggeriti:Suggested values:

    Riga indirizzoAddress Line CittàCity StatoState CAPZip
    1 Microsoft Way1 Microsoft Way RedmondRedmond WAWA 9805298052
    PO Box 1PO Box 1 RedmondRedmond WAWA 9807398073

    Pulizia tramite servizio dati di riferimentoCleansing using reference data service

    Nota

    Per i domini compositi vengono evidenziati in un colore diverso anche i singoli domini corretti durante il processo di pulizia computerizzato.For composite domains, DQS also highlights the individual domains in a different color that were corrected during the computer-assisted cleansing process. In questo caso, ad esempio, sono stati corretti i domini Riga indirizzo e Stato che pertanto vengono evidenziati in ciano.For example, in this case, the Address Line and State domains were corrected, and therefore highlighted in cyan.

  5. Dopo avere verificato tutti i valori di dominio, fare clic su Avanti per esportare i dati.After you are done with reviewing all the domain values, click Next to export the data.

  6. Nella pagina Esporta si noterà che oltre alle informazioni normali dell'attività di pulizia per ogni dominio (Origine, Motivo, Confidenza e Stato), sono presenti informazioni aggiuntive fornite dal servizio dati di riferimento Melissa Data sui dati di indirizzo, ad esempio latitudine e longitudine dell'indirizzo, nome del comune, tipo di indirizzo (palazzo a molti piani, strada, ecc.) e così via.On the Export page, you will notice that apart from the regular information about the cleansing activity for each domain (Source, Reason, Confidence, and Status), there is additional information provided by the Melissa Data reference data service about your address data, such as latitude and longitude of your address, county name, address type (highrise, street, etc.), and so on.

  7. Esportare i dati nella destinazione richiesta (SQL Server, CSV o Excel) e fare clic su Fine per chiudere il progetto.Export your data to the required destination (SQL Server, CSV, or Excel), and click Finish to close the project.

    Importante

    Se si utilizza la versione a 64 bit di Excel, non è possibile esportare i dati puliti in un file di Excel. È possibile eseguire l'esportazione solo in un database di SQL Server o in un file con estensione csv.If you are using 64-bit version of Excel, you cannot export the cleansed data to an Excel file; you can export only to a SQL Server database or to a .csv file.