Data CleansingData Cleansing

Le nettoyage de données est le processus qui consiste à analyser la qualité des données contenues dans une source de données, à approuver/refuser manuellement les suggestions formulées par le système et à apporter les modifications correspondantes aux données.Data cleansing is the process of analyzing the quality of data in a data source, manually approving/rejecting the suggestions by the system, and thereby making changes to the data. Le nettoyage de données dans Data Quality ServicesData Quality Services (DQS) inclut un processus assisté par ordinateur qui analyse la conformité des données par rapport aux connaissances contenues dans une base de connaissances et un processus interactif qui permet au gestionnaire de données d'examiner et de modifier les résultats du processus assisté par ordinateur afin de s'assurer que le nettoyage de données correspond exactement à ce qu'il souhaite faire.Data cleansing in Data Quality ServicesData Quality Services (DQS) includes a computer-assisted process that analyzes how data conforms to the knowledge in a knowledge base, and an interactive process that enables the data steward to review and modify computer-assisted process results to ensure that the data cleansing is exactly as they want to be done.

Le gestionnaire de données peut également procéder au nettoyage des données dans le cadre du processus de création de package d'Integration Services.The data steward can also perform data cleansing in the Integration Services packaging process. Dans ce cas, le gestionnaire de données utilise le composant Composant de nettoyage DQS dans Integration ServicesDQS Cleansing component in Integration Services qui nettoie automatiquement les données à l'aide d'une base de connaissances existante.In this case, the data steward would use the Composant de nettoyage DQS dans Integration ServicesDQS Cleansing component in Integration Services that automatically performs data cleansing using an existing knowledge base. Pour plus d’informations, consultez Transformation de nettoyage DQS.For more information, see DQS Cleansing Transformation.

La fonctionnalité de nettoyage de données de DQS présente les avantages suivants :The data cleansing feature in DQS has the following benefits:

  • Identifie les données incomplètes ou incorrectes dans la source de données (fichier Excel ou base de données SQL Server), puis les corrige ou vous informe de la présence de données non valides.Identifies incomplete or incorrect data in your data source (Excel file or SQL Server database), and then corrects or alerts you about the invalid data.

  • Fournit un processus de nettoyage des données en deux étapes : assisté par ordinateur et interactif.Provides two-step process to cleanse the data: computer-assisted and interactive. Le processus assisté par ordinateur utilise les connaissances figurant dans une base de connaissances DQS pour traiter automatiquement les données et suggérer des remplacements/corrections.The computer-assisted process uses the knowledge in a DQS knowledge base to automatically process the data, and suggest replacements/corrections. Le processus suivant est interactif. Il permet au gestionnaire de données d'approuver, de rejeter ou de modifier les modifications proposées par DQS au cours du nettoyage assisté par ordinateur.The next step, interactive, allows the data steward to approve, reject, or modify the changes proposed by the DQS during the computer-assisted cleansing.

  • Normalise et enrichit les données client à l'aide de valeurs de domaine, de règles de domaine et de données de référence.Standardizes and enriches customer data by using domain values, domain rules, and reference data. Par exemple, normalisez l'utilisation du terme en remplaçant « St ».For example, standardize term usage by changing “St.” par « Street », enrichissez les données en remplissant les éléments manquants en remplaçant « 1 Microsoft way Redmond 98006 » par « 1 Microsoft Way, Redmond, WA 98006 ».to “Street”, enrich data by filling in missing elements by changing “1 Microsoft way Redmond 98006” to “1 Microsoft Way, Redmond, WA 98006”.

  • Fournit une interface de type Assistant à la fois simple, intuitive, et cohérente permettant à l'utilisateur de parcourir les données et d'examiner les erreurs dans un ensemble de données très volumineux.Provides a simple, intuitive, and consistent wizard-like interface to the user to navigate data and inspect errors amongst a very large set of data.

    L'illustration suivante montre le processus de nettoyage des données dans DQS :The following illustration displays how data cleansing is done in DQS:

    Processus de nettoyage des données dans DQSData Cleansing Process in DQS

Nettoyage assisté par ordinateurComputer-assisted Cleansing

Le processus de nettoyage des données dans DQS applique la base de connaissances aux données à nettoyer et propose des modifications aux données.The DQS data cleansing process applies the knowledge base to the data to be cleansed, and proposes changes to the data. Le gestionnaire de données a accès à chaque modification proposée, ce qui lui permet d'évaluer et de corriger les modifications.The data steward has access to each proposed change, enabling him or her to assess and correct the changes. Pour effectuer le nettoyage des données, le gestionnaire de données procède comme suit :To perform data cleansing, the data steward proceeds as follows:

  1. Création d'un projet de qualité des données, sélection d'une base de connaissances par rapport à laquelle vous souhaitez analyser et nettoyer vos données sources, puis sélection de l'activité Nettoyage .Create a data quality project, select a knowledge base against which you want to analyze and cleanse your source data, and select the Cleansing activity. Plusieurs projets de qualité de données peuvent utiliser la même base de connaissances.Multiple data quality projects can use the same knowledge base.

  2. Spécification de la table/vue de la base de données ou d'un fichier Excel contenant les données sources à nettoyer.Specify the database table/view or an Excel file that contains the source data to be cleansed. La base de données ou le fichier Excel peut être identique à celui ou celle utilisé(e) pour la découverte des connaissances, ou il peut s'agir d'une base de données ou d'un fichier Excel différent.The database or the Excel file can be the same one that was used for knowledge discovery, or it can be a different database or Excel file.

    Note

    Si vous sélectionnez la même source de données pour les activités de découverte des connaissances et de nettoyage, les données ne seront pas modifiées.If you select the same data source for knowledge discovery and cleansing activities, there will be no change to the data. Il est recommandé de lancer la découverte des connaissance sur des exemples de données, puis de nettoyer vos données sources en fonction des connaissances acquises pendant l'activité de découverte des connaissances.It is recommended that you run knowledge discovery on a sample data, and later cleanse your source data against the knowledge built during the knowledge discovery activity.

  3. Mappage des champs de données à nettoyer aux domaines/domaines composites appropriés dans la base de connaissances.Map the data fields to be cleansed to appropriate domains/composite domains in the knowledge base. Si vous mappez un champ à un domaine composite, le mappage est effectué entre le champ et le domaine composite, et non avec les domaines individuels du domaine composite.If you map a field to a composite domain, the mapping happens between the field and the composite domain, and not with the individual domains in the composite domain. En outre, le nettoyage des données du champ mappé s'effectue selon les règles spécifiées pour le domaine composite, et non pour les différents domaines du domaine composite.Also, the data cleansing for the mapped field is done based on the rules specified for the composite domain, and not for the individual domains in the composite domain. Pour plus d'informations sur les domaines composites, consultez DQS Knowledge Bases and Domains.For more information about composite domains, see DQS Knowledge Bases and Domains.

  4. Lancez le processus de nettoyage assisté par ordinateur en cliquant sur Démarrer sur la page Nettoyer .Run the computer-assisted cleansing process by clicking Start on the Cleanse page.

    Le processus de nettoyage des données recherche la meilleure correspondance d'une instance de données aux valeurs de domaine de données connues.The data cleansing process finds the best match of an instance of data to known data domain values. Le processus applique les connaissances de qualité des données à toutes les données sources, contrairement au processus de découverte des connaissances qui est exécuté sur un pourcentage des exemples de données.The process applies data quality knowledge to all source data, unlike the knowledge discovery process, which runs on a percentage of the sample data.

    Le processus assisté par ordinateur affiche les informations de qualité des données dans le Data Quality ClientData Quality Client qui sera utilisé pour le processus de nettoyage interactif.The computer-assisted process displays data quality information in Data Quality ClientData Quality Client that will be used for the interactive cleansing process. Outre le respect des règles de syntaxe, DQS utilise également des données de référence et des algorithmes avancés pour catégoriser les données en fonction d'un niveau de confiance.Apart from the adherence to the syntax error rules, DQS also uses reference data and advanced algorithms to categorize data using confidence level. Le niveau de confiance indique le degré de certitude de DQS quant à la correction ou la suggestion.The confidence level indicates the extent of certainty of DQS for the correction or suggestion. Le niveau de confiance est basé sur les valeurs de seuil suivantes :The confidence level is based on the following threshold values:

  • Une valeur de seuil de correction automatique au-delà de laquelle DQS suggère une modification et l'implémente sauf si le gestionnaire de données la refuse.An auto-correction threshold value above which DQS will suggest a change and make it unless the data steward rejects it. Vous pouvez spécifier la valeur de seuil de correction automatique sous l'onglet Paramètres généraux de l'écran Configuration .You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. Pour plus d’informations, consultez Configurer les valeurs de seuil pour le nettoyage et la correspondance.For more information, see Configure Threshold Values for Cleansing and Matching.

  • Une valeur de seuil de suggestion automatique , en-deçà du seuil de correction automatique, au-delà de laquelle DQS suggère une modification et l'implémente si le gestionnaire de données l'approuve.An auto-suggestion threshold value, below the auto-correction threshold, above which DQS will suggest a change, and make it if the data steward approves it. Vous pouvez spécifier la valeur de seuil de suggestion automatique sous l'onglet Paramètres généraux de l'écran Configuration .You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. Pour plus d’informations, consultez Configurer les valeurs de seuil pour le nettoyage et la correspondance.For more information, see Configure Threshold Values for Cleansing and Matching.

    Toute valeur dont le niveau de confiance est inférieur à la valeur du seuil de suggestion automatique est conservée en l'état par DQS, sauf si le gestionnaire de données spécifie une modification.Any value having a confidence level below the auto-suggestion threshold value is left as is by DQS unless the data steward specifies a change.

Nettoyage interactifInteractive Cleansing

En s'appuyant sur le processus de nettoyage assisté par ordinateur, DQS fournit au gestionnaire de données les informations dont il a besoin pour prendre une décision à propos de la modification des données.Based on the computer-assisted cleansing process, DQS provides the data steward with information that they need to make a decision about changing the data. DQS classe les données dans les cinq onglets suivants :DQS categorizes the data under the following five tabs:

  • Suggérés: valeurs pour lesquelles DQS a identifié des suggestions dont le niveau de confiance est supérieur à la valeur du seuil de suggestion automatique mais inférieur à la valeur du seuil de correction automatique .Suggested: Values for which DQS found suggestions that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value. Vous devez examiner ces valeurs et les approuver ou les refuser, selon le cas.You should review these values, and approve or reject as appropriate.

  • Nouveau: valeurs valides pour lesquelles DQS ne dispose pas de suffisamment d'informations (suggestion) et qui ne peuvent donc être mappées à aucun autre onglet. En outre, cet onglet contient également les valeurs dont le niveau de confiance est inférieur à la valeur du seuil de suggestion automatique , mais suffisamment élevé pour être considéré comme valide.New: Valid values for which DQS does not have enough information (suggestion), and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

  • Non valide: valeurs qui ont été marquées comme valides dans le domaine de la base de connaissances ou valeurs qui ne respectent pas une règle de domaine ou des données de référence.Invalid: Values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule or reference data. Cet onglet contient également les valeurs qui sont rejetées par l'utilisateur dans l'un des quatre autres onglets pendant le processus de nettoyage interactif.This tab will also contain values that are rejected by the user in any of the other four tabs during the interactive cleansing process.

  • Corrigé: valeurs corrigées par DQS pendant le processus de nettoyage automatisé lorsque DQS a trouvé une correction pour la valeur dont le niveau de confiance est supérieur à la valeur du seuil de correction automatique .Corrected: Values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value. Cet onglet contient également les valeurs pour lesquelles l'utilisateur a spécifié une valeur correcte dans la colonne Corriger vers lors du nettoyage interactif, puis approuvé en cliquant sur la case d'option dans la colonne Approuver de l'un des quatre autres onglets.This tab will also contain values for which the user specified a correct value in the Correct To column during interactive cleansing, and then approved by clicking the radio button in the Approve column in any of the other four tabs.

  • Correct: valeurs considérées comme correctes.Correct: Values that were found correct. Par exemple, la valeur correspond à une valeur de domaine.For example, the value matched a domain value. Si nécessaire, vous pouvez remplacer le nettoyage DQS en refusant les valeurs affichées sous cet onglet, ou en spécifiant un autre mot dans la colonne Corriger vers , puis en cliquant sur la case d'option dans la colonne Accepter .If required, you can override DQS cleansing by rejecting values under this tab, or by specifying an alternate word in the Correct To column, and then clicking the radio button in the Accept column. Cet onglet contient également les valeurs qui ont été approuvées par l'utilisateur lors du nettoyage interactif en cliquant sur la case d'option dans la colonne Approuver sous l'onglet Nouveau ou Non valide .This tab will also contain values that were approved by the user during interactive cleansing by clicking the radio button in the Approve column in the New or Invalid tab.

Note

Sous les onglets Suggérés, Corrigéet Correct , DQS affiche la valeur de début d'un domaine, le cas échéant, dans la colonne Corriger vers en fonction de la valeur de domaine correspondante.In the Suggested, Corrected, and Correct tabs, DQS displays the leading value for a domain, if applicable, in the Correct To column against the respective domain value.

Le gestionnaire de données utilise Data Quality ClientData Quality Client pour consulter les modifications proposées par DQS et décider s'il faut les implémenter ou non.The data steward uses Data Quality ClientData Quality Client to see the changes that DQS has proposed and to decide whether to implement them or not. Il peut vérifier que les valeurs que DQS a désignées comme correctes le sont effectivement.He or she can verify that values DQS has designated as correct are in fact correct. Il peut vérifier que les modifications déjà apportées par DQS, avec un niveau de confiance élevé, doivent effectivement l'être.He or she can verify that changes already made by DQS, with a high confidence level, should be made. Il peut décider s'il faut approuver les modifications suggérées automatiquement.He or she can decide whether to approve auto-suggested changes. Enfin, il peut examiner les valeurs qui n'ont pas été modifiées, au cas où il souhaiterait apporter une modification non détectée par le processus assisté par ordinateur.And he or she can review values that have not been changed, just in case they want to make a change not found by the computer-assisted process.

DQS fusionne toutes modifications que le gestionnaire de données a apportées avec les résultats du nettoyage des données assisté par ordinateur.DQS will merge any changes that the data steward has made with the results of the computer-assisted data cleansing. Ces modifications restent avec le projet ; elles ne sont toutefois pas ajoutées à la base de connaissances.These changes will stay with the project; however, they will not be added to the knowledge base. Au cours du nettoyage des données, la base de connaissances associée est en lecture seule.During data cleansing, the associated knowledge base is read-only.

Une fois le processus de nettoyage de données terminé, vous pouvez choisir d'exporter les données traitées dans une nouvelle table dans une base de données SQL Server, un fichier .csv ou un fichier Excel.When the data cleansing process has completed, you can choose to export the processed data to a new table in a SQL Server database, .csv file, or Excel file. Les données source sur lesquelles le nettoyage est effectué sont conservées dans leur état d'origine.The source data on which cleansing is performed is maintained in its original state. Le gestionnaire de données peut utiliser les données nettoyées individuellement pour corriger les données source proprement dites.The data steward can use the separate cleansed data to correct the actual source data.

L'illustration suivante montre le nettoyage de données à l'aide de l'application Data Quality ClientData Quality Client :The following illustration displays how data cleansing is done using the Data Quality ClientData Quality Client application:

Nettoyage des données dans Data Quality ClientData Cleansing in Data Quality Client

Correction de la valeur de débutLeading Value Correction

La correction de la valeur de début s'applique aux valeurs de domaine qui ont des synonymes, lorsque l'utilisateur veut utiliser une des valeurs synonymes comme valeur de début en remplacement d'autres valeurs pour homogénéiser la représentation de la valeur.Leading value correction applies to domain values that have synonyms, and the user wants to use one of the synonym values as the leading value instead of others for the consistent representation of the value. Par exemple, « New York », « NYC », et « Big Apple » sont des synonymes, et l'utilisateur veut utiliser « New York » comme valeur de début au lieu de « NYC » et « Big Apple ».For example, “New York”, “NYC”, and “big apple” are synonyms, and the user wants to use “New York” as the leading value instead of “NYC” and “Big Apple”. DQS prend en charge la correction de la valeur de début pendant le processus de nettoyage pour vous aider à normaliser vos données.DQS supports leading value correction during the cleansing process to help you standardize your data. La correction de la valeur de début est effectuée uniquement si cette option a été activée pour le domaine lors de sa création.The leading value correction is done only if the domain was enabled for the same when it was created. Par défaut, la correction de la valeur de début est activée pour tous les domaines, sauf si vous avez désactivé la case à cocher Utiliser des valeurs de début lors de la création d'un domaine.By default, all domains are enabled for leading value correction unless you cleared the Use Leading Values check box while creating a domain. Pour plus d'informations sur cette case à cocher, consultez Set Domain Properties.For more information about this check box, see Set Domain Properties.

Normalisation des données nettoyéesStandardize Cleansed Data

Vous pouvez choisir s'il faut exporter les données nettoyées au format normalisé en fonction du format de sortie défini pour les domaines.You can choose whether to export the cleansed data in the standardized format based on the output format defined for domains. Lors de la création d'un domaine, vous pouvez sélectionner la mise en forme qui est appliquée lorsque les valeurs de données du domaine sont générées.While creating a domain, you can select the formatting that will be applied when the data values in the domain are output. Pour plus d'informations sur la spécification des formats de sortie pour un domaine, consultez la liste Mettre en forme la sortie vers de la rubrique Set Domain Properties.For more information about specifying output formats for a domain, see the Format Output to list in Set Domain Properties.

Lors de l'exportation des données nettoyées dans la page Exporter de l'Assistant de nettoyage de projet de qualité des données, spécifiez si vous souhaitez que les données nettoyées soient exportées au format normalisé en activant la case à cocher Normaliser la sortie .While exporting the cleansed data on the Export page in the cleansing data quality project wizard, you specify whether you want the cleansed data to be exported in the standardized format by selecting the Standardize Output check box. Par défaut, les données nettoyées sont exportées au format normalisé (autrement dit, la case à cocher est activée).By default, the cleansed data is exported in the standardized format, that is, the check box is selected. Pour plus d’informations sur l’exportation des données nettoyées, consultez Nettoyer des données à l’aide des connaissances DQS (internes).For more information about exporting the cleansed data, see Cleanse Data Using DQS (Internal) Knowledge.

Description de la tâcheTask Description RubriqueTopic
Explique comment configurer les valeurs de seuil pour l'activité de nettoyage.Describes how to configure threshold values for the cleansing activity. Configure Threshold Values for Cleansing and MatchingConfigure Threshold Values for Cleansing and Matching
Explique comment nettoyer les données à l'aide des connaissances intégrées à DQS.Describes how to cleanse data using knowledge built in DQS. Nettoyer des données à l’aide de la base de connaissances DQS (interne)Cleanse Data Using DQS (Internal) Knowledge
Explique comment nettoyer les données à l'aide des connaissances du service de données de référence.Describes how to cleanse data using knowledge from reference data service. Nettoyer des données à l’aide de la connaissance des données de référence (externes)Cleanse Data Using Reference Data (External) Knowledge
Explique comment nettoyer un domaine composite.Describes how to cleanse a composite domain. Nettoyer les données dans un domaine compositeCleanse Data in a Composite Domain

Voir aussiSee Also

Projets de qualité des données (DQS) Data Quality Projects (DQS)
Correspondance de donnéesData Matching