DQS 知識庫與定義域

適用於:SQL Server

此主題描述如何在 Data Quality Services (DQS) 的知識庫內建立連結網域。 若要清理數據,您必須了解數據。 若要準備資料品質項目的知識,您可以建置和維護 DQS 可用來識別不正確或無效資料的 知識庫 (KB)。 DQS 可讓您使用電腦輔助和互動式程式來建立、建置及更新您的 知識庫。 知識庫 的知識會保留在定義域中,每個領域都專屬於數據欄位。 知識庫是有關資料的知識儲存機制,可讓您了解資料及維護資料的完整性。

DQS 知識庫 具有下列優點:

  • 建置數據知識是一個詳細的程式。 從範例數據中自動擷取數據知識的 DQS 程式可讓程式變得更容易。

  • DQS 可讓您查看數據的分析,並藉由建立規則和變更數據值來增強 知識庫 知識。 您可以重複這樣做,以改善一段時間的知識。

  • 您可以利用預先存在的數據質量知識,將現有 KB 上的 知識庫、將檔案中的定義域知識匯入 KB、將知識從項目匯回 KB,或使用 DQS 預設 KB、DQS 數據。

  • 您可以將數據與參考數據提供者所維護的數據進行比較,以確保數據的品質。

  • 建置 知識庫 並在數據更正程式中套用 知識庫 之間有清楚的區別,這可讓您彈性地建置和更新 知識庫。

數據管理人會使用 Data Quality Client 應用程式來執行和控制電腦輔助步驟,以及執行互動式步驟。

下圖顯示 知識庫 中的各種元件,以及 DQS 中的網域:

Knowledge Base and Domains in DQS

如何建立及建置 DQS 知識庫

建置 DQS 知識庫 牽涉到下列程式和元件:

知識探索
透過處理數據範例,將知識建置至 知識庫 的計算機輔助程式

定義域管理
互動式程式,可讓數據管理人驗證和修改 知識庫 網域中的知識,每個知識都與數據欄位相關聯。 這包括設定全欄位屬性、建立規則、變更特定值、使用參考數據服務,或設定以字詞為基礎的或跨字段關聯性。

Reference Data Services
網域管理的流程,可讓您根據參考數據提供者所維護及保證的數據來驗證數據。

比對原則
原則,定義 DQS 如何處理記錄,以識別潛在的重複專案和非相符專案,內建於計算機輔助和互動式程式中 知識庫。

知識探索

知識庫建立一開始是計算機引導的程式。 知識探索活動會藉由分析數據品質準則的數據範例、尋找數據不一致和語法錯誤,以及建議變更數據,來建置 知識庫。 此分析是以 DQS 內建的演算法為基礎。

數據管理人會藉由將 知識庫 連結至 SQL Server 資料庫數據表或檢視,其中包含類似 知識庫 用來分析之數據的範例數據,以準備此程式。 然後,數據管理人會將 知識庫 定義域對應至要分析之範例數據的每個數據行。 定義域可以是對應至單一欄位的單一定義域,也可以是包含多個單一定義域的複合定義域,每個定義域都對應至單一字段中數據的一部分(請參閱下方的「複合定義域」)。 當您執行知識探索時,DQS 會將數據質量資訊從範例數據擷取到 知識庫 中的網域。 當您執行知識探索分析時,您將會有 知識庫,您可以執行數據更正。

DQS 知識庫 是可延伸的。 從知識探索活動內,您可以在計算機輔助的知識探索分析之後,以互動方式將知識新增至 知識庫。 您可以手動新增值變更,而且您可以從 Excel 檔案匯入定義域值。 此外,如果範例中的數據已變更,您可以在稍後再次執行知識探索程式。 您可以從定義域管理活動及數據比對活動內套用更多知識(請參閱下方)。

知識探索程式不需要對執行數據更正的相同數據執行。 DQS 可讓您彈性地從一組資料庫欄位建立知識,並將其套用至需要清理的第二組相關數據。 數據管理人可以從頭開始建立新的 知識庫、以現有的 知識庫 為基礎,或從數據文件匯入 知識庫。 您也可以在現有的 知識庫 上重新執行知識探索。 您可以在單一 Data Quality Server 上維護多個 知識庫。 您也可以將應用程式的多個實例連線到相同的 知識庫。 DQS 藉由將 知識庫 鎖定至知識管理會話中開啟它的使用者,以防止並行衝突。

DQS 中的不區分大小寫

DQS 中的值不區分大小寫。 這表示當 DQS 執行知識探索、定義域管理或比對時,它不會區分大小寫的值。 如果您在值管理中新增的值,但只依大小寫而與其他值不同,它們會被視為相同的值,而不是同義字。 如果比對程式中只比較不同大小寫的兩個值,則會將其視為完全相符。

不過,您可以控制在清理結果中導出的值案例。 當您匯出清理結果時,請將 [格式輸出] 設定為定義域屬性(請參閱設定定義域屬性),並使用 [標準化輸出] 複選框來執行此動作(請參閱使用 DQS (內部) 知識清理數據)。

定義域管理

DQS 可讓您以互動方式變更及增加電腦輔助的知識探索活動所產生的中繼資料。 您所做的每個變更都是針對知識庫定義域。 在網域管理活動中,您可以執行下列動作:

  • 建立新的網域。 新的網域可以連結至現有網域或從現有網域複製。

  • 設定套用至定義域中每個字詞的網域屬性。

  • 針對您所定義的值範圍套用執行驗證或標準化的網域規則。

  • 以互動方式將變更套用至定義域中的任何特定數據值。

  • Data Quality Services (DQS) 拼字檢查會檢查網域中字串值的語法、拼字和句子結構。

  • 從 .dqs 數據檔或 Microsoft Excel 檔案中的定義域值匯入定義域。

  • 將數據質量專案中的清理程式找到的值匯入 知識庫。

  • 將定義域附加至參考數據提供者所維護的參考數據,結果會比較定義域值來判斷其完整性和正確性。 您也可以設定資料提供者設定。

  • 為單一定義域套用以字詞為基礎的關聯性。

當訂域管理活動完成時,您可以發佈 知識庫 以用於數據專案。

設定定義域屬性

定義域屬性並驅動將套用至相關聯值的處理。 您可以設定值的數據類型和語言,指定源數據會以前置值進行清理(如果未核取此選項,源數據將會以正確的詞彙來清理,但不會使用前置值來清理),藉由設定定義域中的數據值輸出時套用的格式,以確保數據標準化。 和定義將套用哪些演算法(語法錯誤、拼字檢查和字串正規化)。

Reference Data Services

在網域管理程式中,您可以將在線參考數據附加至網域。 這是您將網域中的數據與參考數據提供者所維護的數據進行比較的方式。 您必須先透過 Data Quality Client 應用程式的 管理員 istration 區段中的 DQS 組態功能來設定參考資料提供者。 如需詳細資訊,請參閱 Reference Data Services in DQS

套用定義域規則

您可以建立資料驗證的網域規則。 定義域規則可確保數據的正確性,範圍從基本條件約束,例如字串值可以是的可能詞彙,到更複雜的正則表達式,例如電子郵件位址的有效形式。

針對複合定義域,您可以建立CD規則,指定單一定義域中的值與另一個單一定義域中的值之間的關聯性,這兩個定義域都是複合定義域的一部分。

設定定義域值

建置 知識庫 之後,您可以在 知識庫 的每個定義域中填入和顯示數據值。 在知識探索之後,DQS 會顯示每個字詞出現多少次、每個字詞的狀態,以及建議的任何更正。 您可以管理這項知識,如下所示:

  • 變更值的狀態,使其正確、錯誤或無效

  • 將特定值新增至或從中刪除特定值,知識庫

  • 將某個值的關係變更為另一個值,包括指定錯誤或無效字詞的取代專案

  • 新增、移除或變更與定義域相關聯的知識。

值可由用戶特別建立,或做為數據探索或匯入功能的一部分所建立。 這可讓您讓網域與企業保持一致,並使其易於擴充。

您可以在定義域管理活動中,或在知識探索活動結尾的 [管理定義域值] 步驟中設定定義域值。 網域值功能在這兩個活動中都相同。

設定字詞關聯

在定義域管理中,您可以指定單一定義域的字詞型關聯,並指定單一值的變更。

複合索引

您也可以建立由兩個或多個個別定義域所組成的複合定義域,其中每一個定義域都包含有關一般資料的知識。 複合定義域可以尋址的數據範例包括名稱欄位中的第一個、中間和姓氏,以及位址欄位中的房屋號碼和街道、城市、州、郵遞區號和國家/地區。 當您將單一欄位對應至複合定義域時,DQS 會將一個字段的數據剖析成構成複合的多個定義域。

有時候,單一定義域並不代表完整欄位數據。 在複合定義域中分組兩個或多個定義域,可讓您以有效率的方式代表數據。 以下是使用複合定義域的優點:

  • 分析組成複合定義域的不同單一定義域,可能是評估數據品質的更有效率的方式。

  • 當您使用複合定義域時,也可以建立跨定義域規則,讓您確認多個定義域中的數據之間的關聯性是否適當。 例如,您可以確認城市網域中的字串 「London」 會對應至國家/地區網域中的字串 “Great Britain”。 跨定義域規則會在只影響單一定義域的所有簡單規則之後納入考量。

  • 複合定義域中的數據可以附加至參考數據源,在此情況下,復合定義域會傳送至參考數據提供者。 這通常是使用地址數據來完成。

如何剖析複合定義域所代表的數據,取決於複合定義域屬性。 數據可以依分隔符、定義域的順序來剖析,或根據附加至複合定義域之定義域中的知識(藉由選取 複合定義域中的 [使用知識型剖 析] 屬性)。 如需詳細資訊,請參閱設定定義域屬性

複合定義域的管理方式與單一定義域不同。 您不管理複合定義域中的值;您可以針對組成複合定義域的單一定義域執行此動作。 不過,從定義域管理活動中的定義域清單,您可以看到複合定義域中不同值之間的關聯性,以及套用至它們的統計數據。 例如,您可以看到有多少實例是由相同五個字串值所組成的單一位址。 在知識探索活動的 [探索] 步驟中,分析會在複合定義域內的單一定義域上執行,而不是在複合定義域上執行。 不過,在互動式清理中,您會清理複合定義域中的數據,而不是單一定義域。

比對可以在組成複合定義域的單一定義域上執行,但不能在複合定義域本身上執行。

資料比對

除了透過網域管理對 知識庫 進行手動變更之外,您還可以將比對的知識新增至 知識庫。 若要為重複資料刪除程序準備 DQS,您必須建立比對原則,DQS 將用來計算相符的機率。 此原則包含一或多個比對規則,由數據管理人建立,以識別 DQS 應該如何比較數據列。 數據管理人會決定應該比較數據列中哪些數據欄位,以及每個欄位在比較中應該擁有多少權數。 數據管理人也會決定應將機率視為相符的機率。 DQS 會將比對規則新增至 知識庫,以用於執行數據質量專案中的比對活動。

如需 知識庫 和數據比對的詳細資訊,請參閱數據比對。

本節內容

您可以針對知識庫執行以下作業:

作業描述 主題
建立、開啟、新增知識,並在 知識庫 上執行探索 建立知識庫
在網域和 知識庫 上執行匯入和導出作業 匯入和匯出知識
建立單一定義域、定義域規則、以字詞為基礎的關聯性,以及變更定義域值 管理定義域
建立複合定義域、建立跨定義域規則,並使用值關聯 管理複合定義域
使用內建於 DQS 的預設 DQS 資料 知識庫 使用 DQS 預設知識庫