DQS クレンジング変換

適用対象:SQL Server Azure Data Factory の SSIS Integration Runtime

DQS クレンジング変換では、Data Quality Services (DQS) を使用して、接続されたデータ ソースまたは類似のデータ ソース用に作成された承認済みのルールを適用することにより、接続されたデータ ソースのデータを修正します。 データ修正ルールの詳細については、「 DQS Knowledge Bases and Domains」を参照してください。 DQS の詳細については、「 Data Quality Services Concepts」を参照してください。

データを修正する必要があるかどうかを判断するために、DQS クレンジング変換は、次の条件が当てはまる場合に、入力列のデータを処理します。

  • データ修正のために列が選択されている。

  • 列のデータ型でデータ修正がサポートされている。

  • 列が、互換性のあるデータ型のドメインにマップされている。

また、変換には、低レベルのエラーを処理するように構成するエラー出力も含まれます。 エラー出力を構成するには、 DQS クレンジング変換エディターを使用します。

Fuzzy Grouping Transformation をデータ フローに含めて、重複部分と考えられるデータ行を特定することができます。

データ品質プロジェクトと値

DQS クレンジング変換によってデータを処理すると、クレンジング プロジェクトが Data Quality Server に作成されます。 データ品質クライアントを使用してプロジェクトを管理します。 また、データ品質クライアントを使用して、プロジェクトの値を DQS のナレッジ ベースのドメインにインポートできます。 値は、DQS クレンジング変換で使用するように構成されているドメイン (またはリンク ドメイン) にしかインポートできません。

[DQS クレンジング変換エディター] ダイアログ ボックス

[DQS クレンジング変換エディター] ダイアログ ボックスを使用すると、Data Quality Services (DQS) を使用してデータを修正できます。 詳細については、「 Data Quality Services の概念」を参照してください。

目的に合ったトピックをクリックしてください

DQS クレンジング変換エディターを開く

  1. SQL Server Data Tools (SSDT) の Integration Services パッケージに DQS クレンジング変換を追加します。

  2. コンポーネントを右クリックし、 [編集]をクリックします。

[接続マネージャー] タブのオプションの設定

[データ品質接続マネージャー]
既存の DQS 接続マネージャーを一覧から選択するか、 [新規作成]をクリックして新しい接続を作成します。

[新規作成]
[DQS クレンジング接続マネージャー] ダイアログ ボックスを使用して、新しい接続マネージャーを作成します。 「 [DQS クレンジング接続マネージャー] ダイアログ ボックスのオプションの設定」を参照してください。

[データ品質ナレッジ ベース]
接続されたデータ ソースの既存の DQS ナレッジ ベースを選択します。 DQS サポート技術情報の詳細については、「 DQS のナレッジ ベースとドメイン」を参照してください。

接続を暗号化する
DQS サーバーと Integration Services の間のデータ転送を暗号化するために、接続を暗号化するかどうかを指定します。

[使用できるドメイン]
選択されたナレッジ ベースで使用できるドメインを一覧表示します。 ドメインには、単一ドメインと、2 つ以上の単一ドメインが含まれた複合ドメインの 2 種類があります。

複合ドメインに列をマップする方法については、「 複合ドメインへの列のマップ」を参照してください。

ドメインの詳細については、「 DQS のナレッジ ベースとドメイン」を参照してください。

エラー出力の構成
行レベルのエラーを処理する方法を指定します。 接続されたデータ ソースのデータを変換で修正する際には、予期しないデータ値や検証制約が原因でエラーが発生することがあります。

有効な値は次のとおりです。

  • [エラー コンポーネント]: 変換に失敗したこと、およびデータが Data Quality Services データベースに挿入されていないことを示します。 これが既定値です。

  • [行のリダイレクト]: 入力データが Data Quality Services データベースに挿入されていないために、エラー出力にリダイレクトされることを示します。

[マッピング] タブのオプションの設定

複合ドメインに列をマップする方法については、「 複合ドメインへの列のマップ」を参照してください。

使用できる入力列
接続されたデータ ソースの列を一覧表示します。 修正するデータを含む 1 つまたは複数の列を選択します。

入力列
[使用できる入力列] 領域で選択した入力列を一覧表示します。

[ドメイン]
入力列にマップするドメインを選択します。

[ソースの別名]
元の列値を含むソース列を一覧表示します。

列名を変更するフィールドをクリックしてください。

[出力の別名]
DQS クレンジング変換によって出力された列を一覧表示します。 この列には、元の列値または修正後の値が含まれます。

列名を変更するフィールドをクリックしてください。

[状態の別名]
修正されたデータの状態情報を含む列を一覧表示します。 列名を変更するフィールドをクリックしてください。

[詳細設定] タブのオプションの設定

[出力の標準化]
ドメインで定義されている出力形式に基づいて標準化された形式でデータを出力するかどうかを示します。 標準化された形式の詳細については、「 データ クレンジング」を参照してください。

[信頼度]
修正されたデータの信頼レベルを含めるかどうかを示します。 信頼レベルは、DQS の修正または候補に対する確実性の度合いを示します。 信頼レベルの詳細については、「 データ クレンジング」を参照してください。

理由
データ修正の理由を含めるかどうかを示します。

[追加されたデータ]
既存の参照データ プロバイダーから取得した追加データを出力するかどうかを示します。 詳細については、「 Reference Data Services in DQS」をご覧ください。

[追加されたデータ スキーマ]
データ スキーマを出力するかどうかを示します。 詳細については、「 参照データへのドメインまたは複合ドメインのアタッチ」を参照してください。

[DQS クレンジング接続マネージャー] ダイアログ ボックスのオプションの設定

サーバー名
接続先の DQS サーバーの名前を選択または入力します。 サーバーの詳細については、「 DQS 管理」を参照してください。

[接続テスト]
クリックすると、指定した接続が利用可能であることを確認できます。

次の方法で、接続領域から [DQS クレンジング接続マネージャー] ダイアログ ボックスを開くこともできます。

  1. SQL Server Data Tools (SSDT) で、既存の Integration Services プロジェクトを開くか、新しく作成します。

  2. 接続領域内を右クリックし、 [新しい接続]をクリックして、 [DQS]をクリックします。

  3. [追加] をクリックします。