DatenbereinigungData Cleansing

Die Datenbereinigung ist der Prozess der Datenqualitätsanalyse in einer Datenquelle, wobei die Empfehlungen vom System manuell genehmigt/zurückgewiesen werden und dadurch Änderungen an den Daten vorgenommen werden.Data cleansing is the process of analyzing the quality of data in a data source, manually approving/rejecting the suggestions by the system, and thereby making changes to the data. Datenbereinigung in Data Quality ServicesData Quality Services (DQS) schließt einen computerunterstützten Prozess ein, der analysiert, wie Daten mit den Informationen in einer Wissensdatenbank übereinstimmen, sowie einen interaktiven Prozess, mit dem der Data Steward computerunterstützte Prozessergebnisse anzeigen und ändern kann, um sicherzustellen, dass die Datenbereinigung entsprechend ausgeführt wird.Data cleansing in Data Quality ServicesData Quality Services (DQS) includes a computer-assisted process that analyzes how data conforms to the knowledge in a knowledge base, and an interactive process that enables the data steward to review and modify computer-assisted process results to ensure that the data cleansing is exactly as they want to be done.

Der Data Steward kann auch die Datenbereinigung im SQL Server Integration Services-Verpackungsprozess ausführen.The data steward can also perform data cleansing in the Integration Services packaging process. In diesem Fall kann der Data Steward die Komponente zur DQS-Bereinigung in Integration ServicesDQS Cleansing component in Integration Services verwenden, die die Datenbereinigung mithilfe einer vorhandenen Wissensdatenbank automatisch ausführt.In this case, the data steward would use the Komponente zur DQS-Bereinigung in Integration ServicesDQS Cleansing component in Integration Services that automatically performs data cleansing using an existing knowledge base. Weitere Informationen finden Sie unter DQS-Bereinigungstransformation.For more information, see DQS Cleansing Transformation.

Die Funktion Datenbereinigung in DQS hat die folgenden Vorteile:The data cleansing feature in DQS has the following benefits:

  • Identifiziert unvollständige oder falsche Daten in der Datenquelle (Excel-Datei oder SQL Server-Datenbank) und korrigiert dann die ungültigen Daten oder sendet Ihnen eine Warnung darüber.Identifies incomplete or incorrect data in your data source (Excel file or SQL Server database), and then corrects or alerts you about the invalid data.

  • Stellt einen aus zwei Schritten bestehenden Prozess zum Bereinigen der Daten bereit: computerunterstützt und interaktiv.Provides two-step process to cleanse the data: computer-assisted and interactive. Vom computergestützten Prozess werden die Informationen in einer DQS-Wissensdatenbank verwendet, um die Daten automatisch zu verarbeiten und um Ersetzungen bzw. Korrekturen vorzuschlagen.The computer-assisted process uses the knowledge in a DQS knowledge base to automatically process the data, and suggest replacements/corrections. Der nächste Schritt ist interaktiv. Der Data Steward kann die vom DQS während des computerunterstützten Datenbereinigungsprozesses vorgeschlagenen Änderungen genehmigen, ablehnen oder ändern.The next step, interactive, allows the data steward to approve, reject, or modify the changes proposed by the DQS during the computer-assisted cleansing.

  • Standardisiert und erweitert Kundendaten mit Domänenwerten, Domänenregeln und Verweisdaten.Standardizes and enriches customer data by using domain values, domain rules, and reference data. Beispielsweise können Sie die Ausdrucksverwendung standardisieren, indem Sie "St."For example, standardize term usage by changing “St.” in "Straße" ändern oder Daten durch Ausfüllen der fehlenden Elemente anreichern: "1 Microsoft way Redmond 98006" wird in "1 Microsoft Way, Redmond, WA 98006" geändert.to “Street”, enrich data by filling in missing elements by changing “1 Microsoft way Redmond 98006” to “1 Microsoft Way, Redmond, WA 98006”.

  • Stellt dem Benutzer eine einfache, intuitive, und konsistente assistentenähnliche Oberfläche bereit, um damit in Daten zu navigieren und Fehler unter einem sehr umfangreichen Satz an Daten zu überprüfen.Provides a simple, intuitive, and consistent wizard-like interface to the user to navigate data and inspect errors amongst a very large set of data.

    Die folgende Abbildung zeigt an, wie die Datenbereinigung in DQS erfolgt:The following illustration displays how data cleansing is done in DQS:

    Datenbereinigungsprozess in DQSData Cleansing Process in DQS

Computerunterstützte Bereinigung Computer-assisted Cleansing

Der DQS-Datenbereinigungsprozess führt die Bereinigung der Daten mithilfe der Wissensdatenbank aus und schlägt Änderungen an den Daten vor.The DQS data cleansing process applies the knowledge base to the data to be cleansed, and proposes changes to the data. Der Data Steward hat Zugriff auf alle vorgeschlagenen Änderungen, sodass er diese bewerten und korrigieren kann.The data steward has access to each proposed change, enabling him or her to assess and correct the changes. So führt der Data Steward eine Datenbereinigung ausTo perform data cleansing, the data steward proceeds as follows:

  1. Erstellen Sie ein Data Quality-Projekt, wählen Sie eine Wissensdatenbank aus, wofür Sie eine Analyse ausführen und Ihre Daten bereinigen möchten, und wählen Sie die Aktivität Bereinigung aus.Create a data quality project, select a knowledge base against which you want to analyze and cleanse your source data, and select the Cleansing activity. Mehrere Data Quality-Projekte können die gleiche Wissensdatenbank verwenden.Multiple data quality projects can use the same knowledge base.

  2. Geben Sie die Datenbanktabelle/Sicht oder eine Excel-Datei an, die die Quelldaten enthält, die gereinigt werden sollen.Specify the database table/view or an Excel file that contains the source data to be cleansed. Die Datenbank- oder die Excel-Datei kann der Datei entsprechen, die für die Wissensermittlung verwendet wurde, oder es kann sich um eine andere Datenbank- oder die Excel-Datei handeln.The database or the Excel file can be the same one that was used for knowledge discovery, or it can be a different database or Excel file.

    Hinweis

    Wenn Sie die gleiche Datenquelle für die Wissensermittlung und die Bereinigungsaktivitäten auswählen, gibt es keine Änderung an den Daten.If you select the same data source for knowledge discovery and cleansing activities, there will be no change to the data. Es wird empfohlen, dass Sie die Wissensermittlung auf Beispieldaten ausführen und Ihre Quelldaten später mit den Informationen bereinigen, die während der Wissensdatenbankaktivität erstellt wurden.It is recommended that you run knowledge discovery on a sample data, and later cleanse your source data against the knowledge built during the knowledge discovery activity.

  3. Ordnen Sie die Datenfelder, die bereinigt werden sollen, den entsprechenden Domänen bzw. Verbunddomänen in der Wissensdatenbank zu.Map the data fields to be cleansed to appropriate domains/composite domains in the knowledge base. Wenn Sie einer Verbunddomäne ein Feld zuordnen, geschieht die Zuordnung zwischen dem Feld und der Verbunddomäne und nicht mit den einzelnen Domänen in der Verbunddomäne.If you map a field to a composite domain, the mapping happens between the field and the composite domain, and not with the individual domains in the composite domain. Zudem wird die Datenbereinigung für das zugeordnete Feld auf Grundlage der Regeln für die Verbunddomäne ausgeführt und nicht für die einzelnen Domänen in der Verbunddomäne.Also, the data cleansing for the mapped field is done based on the rules specified for the composite domain, and not for the individual domains in the composite domain. Weitere Informationen über Verbunddomänen finden Sie unter DQS Knowledge Bases and Domains.For more information about composite domains, see DQS Knowledge Bases and Domains.

  4. Führen Sie auf der Seite Bereinigen den computergestützten Prozess durch Klicken auf Start aus.Run the computer-assisted cleansing process by clicking Start on the Cleanse page.

    Der Datenbereinigungsprozess sucht nach der Dateninstanz, die mit bekannten Datendomänenwerten am besten übereinstimmt.The data cleansing process finds the best match of an instance of data to known data domain values. Dieser Prozess wendet im Gegensatz zum Wissensermittlungsprozess, der für einen Prozentsatz der Beispieldaten ausgeführt wird, das auf die Datenqualität bezogene Wissen auf alle Quelldaten an.The process applies data quality knowledge to all source data, unlike the knowledge discovery process, which runs on a percentage of the sample data.

    Der computergestützte Prozess zeigt die Informationen bezüglich der Datenqualität im Data Quality ClientData Quality Client für den interaktiven Bereinigungsprozess an.The computer-assisted process displays data quality information in Data Quality ClientData Quality Client that will be used for the interactive cleansing process. Bei der Kategorisierung von Daten werden von DQS nicht nur die Syntaxfehlerregeln eingehalten, sondern auch Verweisdaten, erweiterte Algorithmen und ein Vertrauensgradverwendet.Apart from the adherence to the syntax error rules, DQS also uses reference data and advanced algorithms to categorize data using confidence level. Der Vertrauensgrad gibt die DQS-Sicherheitsstufe der Korrektur oder des Vorschlags an.The confidence level indicates the extent of certainty of DQS for the correction or suggestion. Der Vertrauensgrad basiert auf den folgenden Schwellenwerten:The confidence level is based on the following threshold values:

  • Schwellenwert für die ** automatische Korrektur – oberhalb dieses Werts werden Änderungen von DQS vorgeschlagen und vorgenommen, außer wenn sie vom Data Steward abgelehnt werdenAn auto-correction threshold value above which DQS will suggest a change and make it unless the data steward rejects it. Sie können den automatischen Korrekturschwellenwert auf der Registerkarte Allgemeine Einstellungen auf dem Bildschirm Konfiguration angeben.You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. Weitere Informationen finden Sie unter Configure Threshold Values for Cleansing and Matching.For more information, see Configure Threshold Values for Cleansing and Matching.

  • Schwellenwert ** für automatische Vorschläge (unter dem Schwellenwert für die automatische Korrektur) – oberhalb dieses Werts werden Änderungen von DQS vorgeschlagen und vorgenommen, wenn sie vom Data Steward genehmigt werden.An auto-suggestion threshold value, below the auto-correction threshold, above which DQS will suggest a change, and make it if the data steward approves it. Sie können den automatischen Vorschlagsschwellenwert auf der Registerkarte Allgemeine Einstellungen auf dem Bildschirm Konfiguration angeben.You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. Weitere Informationen finden Sie unter Configure Threshold Values for Cleansing and Matching.For more information, see Configure Threshold Values for Cleansing and Matching.

    Jeder Wert, der über einen Vertrauensgrad unter dem Schwellenwert für die automatischen Vorschläge verfügt, wird von DQS nicht verändert, außer wenn der Data Steward eine Änderung angibt.Any value having a confidence level below the auto-suggestion threshold value is left as is by DQS unless the data steward specifies a change.

Interaktive Bereinigung Interactive Cleansing

Auf Grundlage des computergestützten Bereinigungsprozesses stellt DQS dem Data Steward Informationen bereit, die dieser für die Bewertung von Datenänderungen benötigt.Based on the computer-assisted cleansing process, DQS provides the data steward with information that they need to make a decision about changing the data. DQS kategorisiert die Daten auf den folgenden fünf Registerkarten:DQS categorizes the data under the following five tabs:

  • Vorgeschlagen: Werte, für die DQS Vorschläge gefunden hat, die einen Vertrauensgrad aufweisen, der höher als der automatisch vorgeschlagene Schwellenwert , aber niedriger als der Schwellenwert für die automatische Korrektur ist.Suggested: Values for which DQS found suggestions that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value. Diese Werte sollten Sie überprüfen und genehmigen bzw. ablehnen.You should review these values, and approve or reject as appropriate.

  • Neu: Gültige Werte, für die DQS nicht genug Informationen (Vorschläge) aufweist, und die daher keiner anderen Registerkarte zugeordnet werden können. Außerdem enthält diese Registerkarte auch Werte, die einen Vertrauensgrad aufweisen, der unterhalb des automatisch vorgeschlagenen Schwellenwerts liegt, aber hoch genug ist, um als gültig markiert zu werden.New: Valid values for which DQS does not have enough information (suggestion), and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

  • Ungültig: Werte, die in der Domäne in der Wissensdatenbank als ungültig markiert wurden, oder Werte, die eine Domänenregel oder Verweisdaten verletzt haben.Invalid: Values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule or reference data. Diese Registerkarte enthält zudem Werte, die während des interaktiven Bereinigungsprozesses vom Benutzer auf einer der anderen vier Registerkarten abgelehnt wurden.This tab will also contain values that are rejected by the user in any of the other four tabs during the interactive cleansing process.

  • Korrigiert: Werte, die von DQS während des automatisierten Bereinigungsprozesses korrigiert wurden, da für den Wert eine Korrektur mit einem Vertrauensgrad oberhalb des Schwellenwerts für die automatische Korrektur gefunden wurde.Corrected: Values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value. Diese Registerkarte enthält auch Werte, für die der Benutzer während der interaktiven Bereinigung einen richtigen Wert in der Spalte Korrigieren in angegeben hat und dies dann genehmigt hat, indem er auf das Optionsfeld der Spalte Genehmigen in einer der anderen vier Registerkarten geklickt hat.This tab will also contain values for which the user specified a correct value in the Correct To column during interactive cleansing, and then approved by clicking the radio button in the Approve column in any of the other four tabs.

  • Richtig: Werte, die richtig gefunden wurden.Correct: Values that were found correct. Beispielsweise stimmt der Wert mit dem Domänenwert überein.For example, the value matched a domain value. Sie können die DQS-Bereinigung bei Bedarf überschreiben, indem Sie Werte unter dieser Registerkarte ablehnen oder ein alternatives Wort in der Spalte Korrigieren in angeben und anschließenden auf das Optionsfeld der Spalte Annehmen klicken.If required, you can override DQS cleansing by rejecting values under this tab, or by specifying an alternate word in the Correct To column, and then clicking the radio button in the Accept column. Diese Registerkarte enthält auch Werte, die vom Benutzer während der interaktiven Bereinigung durch Klicken auf das Optionsfeld in der Spalte Genehmigen auf der Registerkarte Neu oder Ungültig genehmigt wurden.This tab will also contain values that were approved by the user during interactive cleansing by clicking the radio button in the Approve column in the New or Invalid tab.

Hinweis

Auf den Registerkarten Vorgeschlagen, Korrigiertund Richtig zeigt DQS den führenden Wert für eine Domäne (falls anwendbar) in der Spalte Korrigieren in für den jeweiligen Domänenwert an.In the Suggested, Corrected, and Correct tabs, DQS displays the leading value for a domain, if applicable, in the Correct To column against the respective domain value.

Der Data Steward kann die von DQS vorgeschlagenen Änderungen mithilfe des Data Quality ClientData Quality Client s anzeigen, um zu entscheiden, ob die Änderungen implementiert werden sollen.The data steward uses Data Quality ClientData Quality Client to see the changes that DQS has proposed and to decide whether to implement them or not. Er kann überprüfen, ob die von DQS als richtig gekennzeichneten Werte tatsächlich richtig sind.He or she can verify that values DQS has designated as correct are in fact correct. Er kann überprüfen, ob Änderungen mit einem hohen Vertrauensgrad, die von DQS bereits implementiert wurden, tatsächlich vorgenommen werden sollten.He or she can verify that changes already made by DQS, with a high confidence level, should be made. Er kann entscheiden, ob automatisch vorgeschlagene Änderungen genehmigt werden sollen.He or she can decide whether to approve auto-suggested changes. Außerdem kann er Werte überprüfen, die nicht geändert wurden, und ggf. Änderungen vornehmen, die vom computergestützten Prozess nicht gefunden wurden.And he or she can review values that have not been changed, just in case they want to make a change not found by the computer-assisted process.

DQS führt alle vom Data Steward vorgenommenen Änderungen mit den Ergebnissen der computergestützten Datenbereinigung zusammen.DQS will merge any changes that the data steward has made with the results of the computer-assisted data cleansing. Diese Änderungen werden mit dem Projekt gespeichert. Sie werden jedoch nicht zur Wissensdatenbank hinzugefügt.These changes will stay with the project; however, they will not be added to the knowledge base. Während der Datenbereinigung ist die verbundene Wissensdatenbank schreibgeschützt.During data cleansing, the associated knowledge base is read-only.

Wenn der Datenbereinigungsprozess abgeschlossen wurde, können Sie auswählen, ob die verarbeiteten Daten in eine neue Tabelle, in eine SQL Server-Datenbank, in eine CSV-Datei oder in eine Excel-Datei exportieren werden soll.When the data cleansing process has completed, you can choose to export the processed data to a new table in a SQL Server database, .csv file, or Excel file. Die Quelldaten, für die die Bereinigung ausgeführt wurde, bleiben im ursprünglichen Zustand erhalten.The source data on which cleansing is performed is maintained in its original state. Der Data Steward kann die separaten bereinigten Daten verwenden, um die eigentlichen Quelldaten zu korrigieren.The data steward can use the separate cleansed data to correct the actual source data.

Die folgende Abbildung zeigt, wie die Datenbereinigung mithilfe der Data Quality ClientData Quality Client -Anwendung erfolgt:The following illustration displays how data cleansing is done using the Data Quality ClientData Quality Client application:

Datenbereinigung im Data Quality-ClientData Cleansing in Data Quality Client

Korrektur des führenden Werts Leading Value Correction

Die Korrektur des führenden Werts gilt für Domänenwerte, die über Synonyme verfügen, und der Benutzer möchte einen der Synonymwerte als führenden Wert anstelle von anderen für die konsistente Darstellung des Werts verwenden.Leading value correction applies to domain values that have synonyms, and the user wants to use one of the synonym values as the leading value instead of others for the consistent representation of the value. Beispielsweise sind "New York", "NYC" und "Big Apple" Synonyme. Der Benutzer möchte jedoch "New York" als führenden Wert anstelle von "NYC" und "Big Apple" verwenden.For example, “New York”, “NYC”, and “big apple” are synonyms, and the user wants to use “New York” as the leading value instead of “NYC” and “Big Apple”. DQS unterstützt während des Bereinigungsprozesses die Korrektur des führenden Werts, um Ihnen beim Standardisieren der Daten zu helfen.DQS supports leading value correction during the cleansing process to help you standardize your data. Die Korrektur des führenden Werts wird nur ausgeführt, wenn die Domäne für das Gleiche aktiviert wurde, als sie erstellt wurde.The leading value correction is done only if the domain was enabled for the same when it was created. Standardmäßig ist bei allen Domänen die Korrektur des führenden Werts aktiviert, außer wenn Sie beim Erstellen einer Domäne das Kontrollkästchen Führende Werte verwenden deaktiviert haben.By default, all domains are enabled for leading value correction unless you cleared the Use Leading Values check box while creating a domain. Weitere Informationen zu diesem Kontrollkästchen finden Sie unter Set Domain Properties.For more information about this check box, see Set Domain Properties.

Standardisieren bereinigter Daten Standardize Cleansed Data

Sie können auswählen, ob Sie die bereinigten Daten im standardisierten Format auf Grundlage des für Domänen definierten Ausgabeformats ausgegeben möchten.You can choose whether to export the cleansed data in the standardized format based on the output format defined for domains. Wählen beim Erstellen einer Domäne die Formatierung aus, die beim Ausgeben der Datenwerte in der Domäne angewendet wird.While creating a domain, you can select the formatting that will be applied when the data values in the domain are output. Weitere Informationen zum Angeben von Ausgabeformaten einer Domäne finden Sie in der Liste Formatausgabe in Set Domain Properties.For more information about specifying output formats for a domain, see the Format Output to list in Set Domain Properties.

Beim Exportieren der bereinigten Daten auf der Seite Exportieren im Assistenten für die Bereinigung von Data Quality-Projekten können Sie angeben, ob die bereinigten Daten im standardisierten Format exportiert werden sollen, indem Sie das Kontrollkästchen Ausgabe standardisieren aktivieren.While exporting the cleansed data on the Export page in the cleansing data quality project wizard, you specify whether you want the cleansed data to be exported in the standardized format by selecting the Standardize Output check box. Standardmäßig werden die gereinigten Daten im standardisierten Format exportiert, das heißt, das Kontrollkästchen ist aktiviert.By default, the cleansed data is exported in the standardized format, that is, the check box is selected. Weitere Informationen zum Exportieren der bereinigten Daten finden Sie unter Bereinigen von Daten mit (internem) DQS-Wissen.For more information about exporting the cleansed data, see Cleanse Data Using DQS (Internal) Knowledge.

TaskbeschreibungTask Description ThemaTopic
Beschreibt das Konfigurieren von Schwellenwerten für Bereinigungsaktivitäten.Describes how to configure threshold values for the cleansing activity. Configure Threshold Values for Cleansing and MatchingConfigure Threshold Values for Cleansing and Matching
Beschreibt, wie Daten mithilfe der Wissenserstellung in DQS bereinigt werden.Describes how to cleanse data using knowledge built in DQS. Bereinigen von Daten mit (internem) DQS-WissenCleanse Data Using DQS (Internal) Knowledge
Beschreibt, wie Daten mithilfe der Informationen des Verweisdatendiensts bereinigt werden.Describes how to cleanse data using knowledge from reference data service. Bereinigen von Daten mit Wissen über (externe) VerweisdatenCleanse Data Using Reference Data (External) Knowledge
Beschreibt, wie eine Verbunddomäne gereinigt wird.Describes how to cleanse a composite domain. Bereinigen von Daten in einer VerbunddomäneCleanse Data in a Composite Domain

Siehe auchSee Also

Data Quality-Projekte (DQS) Data Quality Projects (DQS)
DatenabgleichData Matching