Data Cleansing

[アーティクル]
04/03/2023

適用対象:SQL Server

データクレンジングは、データソース内のデータの品質を分析し、システムによる推奨事項を手動で承認または拒否し、それによってデータを変更するプロセスです。 Data Quality Services (DQS) でのデータクレンジングには、ナレッジベースのナレッジにデータがどの程度準拠しているのかを分析するコンピューター支援型のプロセスと、データスチュワードがコンピューター支援型プロセスの結果を検討および変更してデータクレンジングが意図したとおりに行われるようにするための対話型プロセスが含まれます。

データスチュワードは、Integration Services パッケージ化プロセスでデータクレンジングを実行することもできます。この場合、データスチュワードは DQS クレンジングコンポーネントを使用します。このコンポーネントでは、既存のナレッジベースを使用してデータクレンジングが自動的に行われます。詳細については、「DQS クレンジング変換」を参照してください。

DQS のデータクレンジング機能には、次の利点があります。

データソース (Excel ファイルまたは SQL Server データベース) 内の不完全なデータまたは正しくないデータを識別し、修正したり、無効なデータについてユーザーに通知したりします。
コンピューター支援型 と 対話型の 2 手順のプロセスでデータをクレンジングします。コンピューター支援型プロセスでは、DQS ナレッジベースのナレッジを使用して、データを自動的に処理し、置換/修正を提案します。次の対話型手順では、データスチュワードはコンピューター支援型クレンジングの間に DQS によって提案された変更を承認、拒否、または修正できます。
ドメイン値、ドメインルール、および参照データを使用して、顧客データを標準化および拡充します。たとえば、"St."を"Street"に変更し用語の使用を標準化します。 "1 Microsoft way Redmond 98006" を "1 Microsoft Way, Redmond, WA 98006" に変更して足りない要素を補充することによりデータを拡充します。
単一の直感的な一貫性のあるウィザードに似たインターフェイスを提供し、ユーザーがデータ内を移動して、非常に大きいデータセットのエラーを検査できるようにします。

次の図は、DQS でのデータクレンジングの実行方法を示したものです。

Data Cleansing Process in DQS

コンピューター支援型のクレンジング

DQS のデータクレンジングプロセスでは、クレンジング対象のデータにナレッジベースが適用され、データに対する変更内容が提示されます。データスチュワードは提示された変更内容にアクセスして、それを評価および修正します。データクレンジングを行うには、データスチュワードは次の手順を実行します。

データ品質プロジェクトを作成し、ソースデータの分析とクレンジングに使用するナレッジベースを選択し、 クレンジング アクティビティを選択します。複数のデータ品質プロジェクトで、同一のナレッジベースを使用できます。
クレンジング対象のソースデータが含まれるデータベーステーブル/ビューまたは Excel ファイルを指定します。データベースまたは Excel ファイルは、ナレッジ検出に使用したものと同じでも、別のデータベースまたは Excel ファイルでもかまいません。

注意

ナレッジ検出とクレンジングアクティビティに同じデータソースを選択すると、データは変更されません。サンプルデータに対してナレッジ検出を実行した後、ナレッジ検出アクティビティの間に構築されたナレッジでソースデータをクレンジングすることをお勧めします。
クレンジング対象のデータフィールドを、ナレッジベースの適切なドメイン/複合ドメインにマップします。複合ドメインにフィールドをマップした場合は、フィールドと複合ドメインの間でマッピングが行われます。複合ドメイン内の個別のドメインとの間ではマッピングは行われません。また、マップされたフィールドのデータクレンジングは、複合ドメインに指定されているルールに基づいて行われます。複合ドメイン内の個別のドメインに指定されているルールでは行われません。複合ドメインの詳細については、「 DQS Knowledge Bases and Domains」を参照してください。
[最適化] ページの [開始] をクリックして、コンピューター支援型のクレンジングプロセスを実行します。

データクレンジングプロセスでは、既知のデータドメイン値と最も一致するデータインスタンスが検索されます。一部のサンプルデータで実行されるナレッジ検出プロセスとは異なり、このプロセスでは、すべてのソースデータに対してデータ品質ナレッジが適用されます。

コンピューター支援型のプロセスでは、Data Quality Client に、対話型クレンジングプロセスで使用されるデータ品質情報が表示されます。構文エラー規則への準拠を除き、DQS では、参照データと高度なアルゴリズムを使用して、 信頼レベルに基づいてデータが分類されます。信頼レベルは、DQS の修正または候補に対する確実性の度合いを示します。信頼レベルは、次のしきい値に基づきます。

自動修正のしきい値 : この値を上回る場合 DQS によって変更内容が提示され、データスチュワードが拒否しない限り修正されます。自動修正しきい値は、 [構成] 画面の [全般設定] タブで指定できます。詳細については、「クレンジングと照合のしきい値の構成」をご参照ください。
自動提案のしきい値 : この値を上回り、自動修正のしきい値以下である場合、DQS によって変更内容が提示され、データスチュワードが承認した場合に修正されます。自動提案しきい値は、 [構成] 画面の [全般設定] タブで指定できます。詳細については、「クレンジングと照合のしきい値の構成」をご参照ください。

自動提案のしきい値より信頼レベルが低いすべての値は、データスチュワードが変更を指定しない限り、そのまま維持されます。

インタラクティブなクレンジング

コンピューター支援型のクレンジングプロセスに基づいて、データを変更するかどうかの判断に必要な情報がデータスチュワードに示されます。データは次の 5 つのタブに分類されます。

[提案]: 信頼レベルが 自動提案しきい値 より高く 自動修正しきい値 より低い提案が検出された値。これらの値は、確認して、必要に応じ承認または拒否する必要があります。
[新規]: DQS に十分な情報 (提案) がないため、他のタブにマップできない有効な値。さらに、このタブには、信頼度が自動提案のしきい値より低いが、有効としてマークできるほど高い値も含まれています。
[無効]: ナレッジベースのドメインでは無効と見なされた値や、ドメインルールまたは参照データが失敗した値。このタブには、対話型クレンジングプロセスの間にユーザーが他の 4 つのタブで拒否した値も表示されます。
[修正済み]: 信頼レベルが 自動修正しきい値 を超える修正が検出されたために自動化クレンジングプロセス中に DQS によって修正された値。このタブには、ユーザーが対話型クレンジングの間に [次に修正] 列で正しい値を指定した後、他の 4 つのタブのいずれかで [承認] 列のオプションボタンをクリックして承認した値も表示されます。
[適切]: 正しいことがわかった値。たとえば、ドメイン値に一致した値が表示されます。必要な場合には、このタブで値を拒否することにより、または [次に修正] 列で代わりの用語を指定してから [承認] 列でラジオボタンをクリックすることにより、DQS のクレンジングをオーバーライドできます。また、ユーザーが対話型クレンジングの間に [新規] タブまたは [無効] タブで [承認] 列のオプションボタンをクリックして承認した値もこのタブに含まれます。

注意

[提案]、 [修正済み]、 [適切] の各タブでは、該当する場合は、ドメインの先頭の値がそれぞれのドメイン値に対する [次に修正] 列に表示されます。

データスチュワードは Data Quality Client を使用して、DQS が提示した変更内容を確認し、その変更を適用するかどうかを判断します。データスチュワードは、正しい値として DQS が提示した用語が実際に正しいかどうかを検証できます。また、信頼レベルが高く、既に DQS によって適用済みの変更内容についても、変更が適切かどうかを検証できます。自動提案される変更内容については、承認するかどうかを判断できます。さらに、変更されていない値を確認して、コンピューター支援型のプロセスでは検出されなかった変更内容がないかどうかを確認できます。

DQS では、コンピューター支援型のデータクレンジングの結果に対してデータスチュワードが加えた変更がマージされます。これらの変更はプロジェクト内で維持されますが、ナレッジベースには追加されません。データクレンジングでは、関連付けられているナレッジベースは読み取り専用です。

データクレンジングプロセスが完了したら、処理されたデータを、SQL Server データベースの新しいテーブル、.csv ファイル、または Excel ファイルにエクスポートできます。クレンジングが実行されたソースデータは、元の状態のまま維持されます。データスチュワードは、別のクレンジングデータを使用して、実際のソースデータを修正できます。

次の図は、Data Quality Client アプリケーションを使用してデータクレンジングを実行する方法を示したものです。

Data Cleansing in Data Quality Client

先頭の値の修正

先頭の値の修正は、シノニムのあるドメイン値に対して適用されます。値の表現が一貫するように、シノニム値の 1 つを他の値の代わりに先頭の値として使用できます。たとえば、"New York"、"NYC"、および "big apple" はシノニムであり、"NYC" および "Big Apple" の代わりに "New York" を先頭の値として使用できます。 DQS では、データを標準化できるように、クレンジングプロセスにおいて先頭の値の修正がサポートされています。先頭の値の修正は、ドメインの作成時にドメインでこの機能が有効になっている場合にのみ行われます。ドメインの作成時に [先頭の値を使用] チェックボックスをオフにしない限り、先頭の値の修正はすべてのドメインにおいて既定で有効になります。このチェックボックスの詳細については、「 Set Domain Properties」を参照してください。

クレンジング済みデータの標準化

ドメインで定義されている出力形式に基づいてクレンジング済みのデータを標準化された形式でエクスポートするかどうかを選択できます。ドメインの作成時に、ドメイン内のデータ値が出力されるときに適用される書式設定を選択できます。ドメインの出力形式の指定の詳細については、「 Set Domain Properties 」の「形式の出力先」を参照してください。

クレンジングデータ品質プロジェクトウィザードの [エクスポート] ページでクレンジング済みデータをエクスポートするときに、 [出力の標準化] チェックボックスで、クレンジング済みデータを標準形式でエクスポートするかどうかを指定します。既定では、このチェックボックスはオンになっており、クレンジング済みデータは標準化された形式でエクスポートされます。クレンジング済みデータをエクスポートする方法の詳細については、「DQS (内部) ナレッジを使用したデータのクレンジング」を参照してください。

タスクの説明	トピック
クレンジングアクティビティのしきい値を構成する方法について説明します。	クレンジングと照合のしきい値の構成
DQS に組み込まれたナレッジを使用してデータをクレンジングする方法について説明します。	DQS (内部) ナレッジを使用してデータをクレンジングする
参照データサービスのナレッジを使用してデータをクレンジングする方法について説明します。	参照データ (外部) ナレッジを使用してデータをクレンジングする
複合ドメインをクレンジングする方法について説明します。	複合ドメインでデータをクレンジングする

参照

データ品質プロジェクト (DQS)
データ照合

Data Cleansing

コンピューター支援型のクレンジング

インタラクティブなクレンジング

先頭の値の修正

クレンジング済みデータの標準化

参照

フィードバック

フィードバック

その他のリソース

Data Cleansing

コンピューター支援型のクレンジング

インタラクティブなクレンジング

先頭の値の修正

クレンジング済みデータの標準化

Related Tasks

参照

フィードバック

フィードバック

その他のリソース