Nettoyer les données à l’aide des données de référence des connaissances (externes) - Data Quality Services (DQS)

S’applique à :SQL Server

Cette rubrique décrit comment nettoyer les données à l'aide de la connaissance des fournisseurs de données de référence. Bien que toutes les étapes d’exécution d’une activité de nettoyage restent les mêmes pour nettoyer vos données à l’aide des connaissances des fournisseurs de données de référence, comme expliqué dans les connaissances de nettoyage des données à l’aide des connaissances DQS (interne), cette rubrique fournit des informations spécifiques au nettoyage des données à l’aide du service de données de référence dans Data Quality Services (DQS).

Important

Cet article mentionne des services de données de référence tiers qui étaient disponibles dans Azure DataMarket. DataMarket et Data Services, notamment les données d’adresse Melissa par exemple, ont été supprimés après le 31/12/2016. Par conséquent, vous ne pouvez plus exécuter les exemples de cet article avec les services spécifiés de DataMarket. Vous pouvez quand même utiliser les services de données de référence directement disponibles en ligne des fournisseurs de données de référence tiers.

Lorsque vous utilisez la fonction du service des données de référence dans DQS pour nettoyer vos données, le processus de nettoyage DQS envoie les valeurs du domaine mappé au fournisseur de services de données de référence sous forme de demande de traitement. Le service de données de référence répond avec les informations suivantes :

  • Correction suggérée

  • Confiance

  • Informations supplémentaires sur le domaine mappé. Les données de référence peuvent également normaliser, analyser ou enrichir la source avec des informations supplémentaires. Ces informations sont fournies dans des champs supplémentaires de la réponse.

Après l'obtention de la réponse du service de données de référence, les événements suivants se produisent dans DQS pendant l'activité de nettoyage :

  • Selon les valeurs Seuil de correction automatique et Confiance minimale spécifiées pendant le mappage des domaines avec le service de données de référence, les valeurs du domaine sont automatiquement corrigées or suggérées en fonction du niveau de confiance.

    Note

    Les valeurs de seuil que vous spécifiez pendant le mappage d'un domaine à un service de données de référence sont appliquées tout en nettoyant les données à l'aide de la connaissance du service des données de référence, et non celles spécifiées dans l'onglet Paramètres généraux de la section Configuration . Pour plus d’informations sur la spécification des valeurs de seuil pour le nettoyage des données de référence, consultez l’étape 9 dans Attacher un domaine ou un domaine composite à des données de référence.

  • Les valeurs de domaine sont classées par catégorie comme suit : Suggérées, Nouvelles, Non valides, Corrigéeset Correctes.

  • Les informations supplémentaires sont ajoutées à la source, puis les informations sont disponibles avec les données nettoyées pour l'exportation.

Avant de commencer

Prerequisites

Vous devez avoir mappé les domaines obligatoires d'une base de connaissances DQS au service de données de référence approprié. En outre, la base de connaissances doit contenir la connaissance sur le type de données que vous souhaitez nettoyer. Par exemple, si vous souhaitez nettoyer les données sources qui contiennent des adresses américaines, vous devez mapper les domaines à un fournisseur de services de données de référence qui propose des données de haute qualité pour les adresses américaines. Pour plus d’informations, consultez Attacher un domaine ou un domaine composite à des données de référence.

Sécurité

Autorisations

Vous devez disposer du rôle dqs_kb_editor ou dqs_kb_operator sur la base de données DQS_MAIN pour effectuer le nettoyage des données.

Nettoyer les données à l'aide de la connaissance des données de référence

Nous allons continuer avec le même exemple d’utilisation des domaines que nous avons mappés dans la rubrique précédente, Attacher un domaine ou un domaine composite aux données de référence, avec le service De données Melissa dans la Place de marché Azure. Maintenant, nous utiliserons les mêmes domaines pour nettoyer certains exemples d'adresses américaines. Les étapes de nettoyage des données sont les mêmes que celles décrites dans Cleanse Data Using DQS (Internal) Knowledge. Toutefois, nous attirerons votre attention chaque fois que nécessaire pendant le processus.

  1. Créez un projet de qualité des données, puis sélectionnez l'activité Nettoyage . Consultez Create a Data Quality Project.

  2. Dans la page Mapper , mappez les 4 domaines suivants avec les colonnes appropriées de votre source de données : Adresse, Ville, Étatet Code postal. Cliquez sur Suivant.

    Note

    Lorsque vous avez mappé les 4 domaines du domaine composite de Contrôle d'adresse , le nettoyage des données sera effectué au niveau du domaine composite, et non au niveau du domaine individuel.

  3. Sur la page Nettoyer , exécutez le processus de nettoyage assisté par ordinateur en cliquant sur Démarrer. Une fois le processus de nettoyage terminé, cliquez Suivant.

    Note

    Sur la page Nettoyer , DQS affiche les informations sur les domaines joints au service des données de référence de deux façons :

    • Un message s’affiche sous le bouton Démarrer : « Domain1><, <Domain2>,... <DomainN> est nettoyé à l’aide du fournisseur de services de données de référence. » Dans cet exemple, le message suivant s’affiche : « La vérification de l’adresse du domaine est nettoyée à l’aide du fournisseur de services de données de référence ».
    • Une icône Domain is attached to RDSest affichée dans la zone Générateur de profils sur les domaines joints au fournisseur du service des données de référence. Dans cet exemple, l'icône sera affichée sur le domaine composite Contrôle d'adresse .
  4. Dans la page Gérer et afficher les résultats , vérifiez les valeurs de domaine. Le service de données de référence peut afficher plusieurs suggestions, si elles sont disponibles, pour une valeur en fonction du nombre maximal de suggestions spécifiées dans la zone Candidats suggérés lors du mappage du domaine au service des données de référence. Par exemple, deux suggestions s'affichent pour l'adresse américaine suivante :

    Valeur d’origine :

    Ligne d’adresse Ville State Code postal
    1 MSFT way Redmond 98052

    Valeurs suggérées :

    Ligne d’adresse Ville State Code postal
    1 Microsoft Way Colombes WA 98052
    PO Box 1 Colombes WA 98073

    Cleansing using reference data service

    Note

    Pour les domaines composites, DQS met aussi en surbrillance les domaines d'une couleur différente qui ont été corrigés pendant le processus de nettoyage assisté par ordinateur. Par exemple, dans ce cas, Adresse et État ont été corrigés et mis en surbrillance avec la couleur cyan.

  5. Une fois que vous avez fini d'examiner toutes les valeurs de domaine, cliquez sur Suivant pour exporter les données.

  6. Dans la page Exporter , vous remarquerez qu'en dehors des informations standard sur l'activité de nettoyage pour chaque domaine (source, raison, confiance et état), il existe des informations supplémentaires fournies par le service des données de référence Melissa, telles que la latitude et la longitude de votre adresse, le nom du département, le type d'adresse (avenue, rue, etc.), et ainsi de suite.

  7. Exportez vos données vers la destination requise (SQL Server, CSV ou Excel), puis cliquez sur Terminer pour fermer le projet.

    Important

    Si vous utilisez une version 64 bits d'Excel, vous ne pouvez pas exporter les données nettoyées vers un fichier Excel : vous ne pouvez exporter que vers une base de données SQL Server ou un fichier .csv.