使用 Profisee 和 Azure Data Factory 進行主要數據管理

Azure Data Factory
Azure Databricks
Azure Data Lake

此架構模式示範如何將 MDM 併入 Azure 數據服務生態系統,以改善用於分析和作業決策的數據品質。 MDM 可解決數個常見的挑戰,包括:

  • 識別和管理重複的數據(比對和合併)。
  • 標記並解決數據質量問題。
  • 標準化和擴充數據。
  • 允許數據管理人主動管理及改善數據。

此模式提供 MDM 的新式方法。 所有技術都可以在 Azure 中原生部署,包括 Profisee,您可以透過容器進行部署,並使用 Azure Kubernetes Service 進行管理。

架構

Diagram showing the master data management Profisee data flow.

下載此架構中使用的圖表 Visio 檔案

資料流程

下列資料流會對應至上圖:

  1. 源數據載入: 來自商務應用程式的源數據會複製到 Azure Data Lake,並儲存它以進行進一步的轉換,並在下游分析中使用。 源數據通常分為三種類別之一:

    • 結構化主要數據 – 描述客戶、產品、位置等的資訊。 主要數據是低量、高複雜性,而且隨著時間的緩慢變更。 組織通常會在數據品質方面最苦苦掙扎的數據。
    • 結構化事務數據 – 在特定時間點發生的商務事件,例如訂單、發票或互動。 交易包括該交易的計量(例如銷售價格)和主要數據的參考(例如參與購買的產品和客戶)。 事務數據通常是大量、低複雜度,而且不會隨著時間而變更。
    • 非結構化數據 – 可包含檔、影像、影片、社交媒體內容和音訊的數據。 新式分析平臺可以越來越多地使用非結構化數據來瞭解新的見解。 非結構化數據通常與主要數據相關聯,例如與社交媒體帳戶相關聯的客戶,或與影像相關聯的產品。
  2. 來源主要數據載入: 來自來源商務應用程式的主要數據會「依目前」載入至 MDM 應用程式,其中包含完整的譜系資訊和最少的轉換。

  3. 自動化 MDM 處理: MDM 解決方案會使用自動化程式來標準化、驗證和擴充數據,例如地址數據。 此解決方案也會識別數據質量問題、將重複的記錄分組(例如重複的客戶),併產生主要記錄,也稱為「黃金記錄」。

  4. 數據管理: 必要時,數據管家可以:

    • 檢閱和管理相符記錄的群組
    • 建立和管理數據關聯性
    • 填寫遺漏的資訊
    • 解決數據質量問題。

    數據管理員可以視需要管理多個替代階層式匯總,例如產品階層。

  5. 受控主要數據載入: 高品質的主要數據會流入下游分析解決方案。 此動作可簡化此程式,因為數據整合不再需要任何數據質量轉換。

  6. 交易和非結構化數據載入: 交易式和非結構化數據會載入下游分析解決方案,並結合高品質的主要數據。

  7. 視覺效果和分析: 數據會建立模型,並提供給商務用戶進行分析。 高品質主要數據可消除常見的數據質量問題,進而改善見解。

元件

  • Azure Data Factory 是混合式數據整合服務,可讓您建立、排程及協調 ETL 和 ELT 工作流程。

  • Azure Data Lake 為分析數據提供無限的記憶體。

  • Profisee 是一個可調整的 MDM 平臺,其設計目的是要輕鬆地與 Microsoft 生態系統整合。

  • Azure Synapse Analytics 是快速、彈性且受信任的雲端數據倉儲,可讓您以大規模平行處理架構彈性且獨立地調整、計算及儲存數據。

  • Power BI 是一套商務分析工具,可在整個組織中提供深入解析。 連線 至數百個數據源、簡化數據準備,以及推動即興分析。 產生美觀的報表,然後將其發佈,讓組織可在 Web 和所有行動裝置上使用。

替代項目

若沒有用途建置的 MDM 應用程式,您可以在 Azure 生態系統內找到建置 MDM 解決方案所需的一些技術功能。

  • 數據品質 - 載入至分析平臺時,您可以將資料品質建置至整合程式。 例如,使用硬式編碼腳本在 Azure Data Factory 管線中套用數據質量轉換。
  • 數據標準化和擴充 - Azure 地圖服務 有助於提供地址數據的數據驗證和標準化,您可以在 Azure Functions 和 Azure Data Factory 中使用這些數據。 其他數據的標準化可能需要開發硬式編碼的腳本。
  • 重複的數據管理 - 您可以使用 Azure Data Factory 來 重複數據列 ,其中有足夠的識別碼可供完全比對。 在此情況下,與適當倖存者相符的邏輯可能需要自定義硬式編碼腳本。
  • 數據管理 - 使用 Power Apps 快速開發簡單的數據管理解決方案來管理 Azure 中的數據,以及適當的使用者介面,以進行檢閱、工作流程、警示和驗證。

案例詳細資料

許多數位轉換程式會使用 Azure 作為核心。 但這取決於來自多個來源的數據品質和一致性,例如商務應用程式、資料庫、數據摘要等等。 它也透過商業智慧、分析、機器學習等方式提供價值。 Profisee 的 Master 資料管理 (MDM) 解決方案會使用實際方法來完成 Azure 數據資產,以「對齊和合併」來自多個來源的數據。 它會在源數據上強制執行一致的數據標準,例如比對、合併、標準化、驗證和更正。 與 Azure Data Factory 和其他 Azure Data Services 的原生整合可進一步簡化此程式,以加速 Azure 業務權益的傳遞。

MDM 解決方案運作方式的核心層面是,它們結合來自多個來源的數據,以建立包含每個記錄最已知且受信任的數據的「黃金記錄主機」。 此結構會根據需求建置網域,但幾乎一律需要多個網域。 常見的網域是客戶、產品和位置。 但定義域可以代表任何專案,從參考數據到合約和藥物名稱。 一般而言,相較於廣泛的 Azure 數據需求,您可以建置的更佳網域涵蓋範圍。

MDM 整合管線

Image that shows the master data management Profisee integration pipeline.

下載此架構的 Visio 檔案

上圖顯示與 Profisee MDM 解決方案整合的詳細數據。 請注意,Azure Data Factory 和 Profisee 包含原生 REST 整合支援,提供輕量型和現代化整合。

  1. 將源數據載入 MDM: Azure Data Factory 會從 Data Lake 擷取資料、轉換數據以符合主要數據模型,然後透過 REST 接收將它串流至 MDM 存放庫。

  2. MDM 處理: MDM 平臺會透過一連串的活動處理來源主要數據,以驗證、標準化及擴充數據,以及執行數據質量程式。 最後,MDM 會執行比對和倖存者,以識別和群組重複的記錄,並建立主要記錄。 或者,數據管理人可以執行工作,以產生一組用於下游分析的主要數據。

  3. 載入主要分析數據: Azure Data Factory 會使用 REST 來源,將主要數據從 Profisee 串流至 Azure Synapse Analytics。

適用於 Profisee 的 Azure Data Factory 範本

在與 Microsoft 的合作下,Profisee 開發了一組 Azure Data Factory 範本,可讓您更快速地將 Profisee 整合到 Azure Data Services 生態系統中。 這些範本會使用 Azure Data Factoryies REST 數據源和數據接收器,從 Profisee 的 REST 閘道 API 讀取和寫入數據。 它們提供從和寫入到 Profisee 的範本。

Screenshot that shows MDM Profisee and the Azure Data Factory template.

範例 Data Factory 範本:透過 REST 撰寫的 JSON

下列螢幕快照顯示 Azure Data Factory 範本,此範本會透過 REST 將資料從 Azure Data Lake 中的 JSON 檔案複製到 Profisee。

樣本會複製來源 JSON 資料:

Screenshot that shows the source JSON data.

然後,數據會透過 REST 同步至 Profisee:

Screenshot that shows REST sync to Profisee.

如需詳細資訊,請參閱 適用於 Profisee 的 Azure Data Factory 範本。

MDM 處理

在分析 MDM 使用案例中,數據通常會透過 MDM 解決方案自動處理以載入資料以進行分析。 下列各節顯示此內容中客戶數據的一般程式。

1.源數據載入

源數據會從來源系統載入 MDM 解決方案,包括歷程資訊。 在此情況下,我們有兩個來源記錄,一個來自CRM,一個來自 ERP 應用程式。 在視覺檢查時,這兩筆記錄似乎都代表同一個人。

來源名稱 來源位址 來源狀態 來源 電話 來源標識碼 標準位址 標準狀態 標準名稱 標準 電話 相似性
阿拉娜·博什 123 Main Street GA 7708434125 CRM-100
博斯,阿拉納 123 主街 喬治亞 404-854-7736 CRM-121
阿拉娜·博斯 (404) 854-7736 ERP-988

2.數據驗證和標準化

驗證和標準化規則和服務有助於標準化和驗證位址、名稱和電話號碼資訊。

來源名稱 來源位址 來源狀態 來源 電話 來源標識碼 標準位址 標準狀態 標準名稱 標準 電話 相似性
阿拉娜·博什 123 Main Street GA 7708434125 CRM-100 123 主街 GA 阿拉娜·博什 770 843 4125
博斯,阿拉納 123 主街 喬治亞 404-854-7736 CRM-121 123 主街 GA 阿拉娜·博斯 404 854 7736
阿拉娜·博斯 (404) 854-7736 ERP-988 阿拉娜·博斯 404 854 7736

3. 比對

使用標準化的數據時,就會進行比對,以識別群組中記錄之間的相似性。 在此案例中,兩筆記錄會完全比對 Name 和 電話,而 Name 和 Address 上的其他模糊相符專案則完全相符。

來源名稱 來源位址 來源狀態 來源 電話 來源標識碼 標準位址 標準狀態 標準名稱 標準 電話 相似性
阿拉娜·博什 123 Main Street GA 7708434125 CRM-100 123 主街 GA 阿拉娜·博什 770 843 4125 0.9
博斯,阿拉納 123 主街 喬治亞 404-854-7736 CRM-121 123 主街 GA 阿拉娜·博斯 404 854 7736 1.0
阿拉娜·博斯 (404) 854-7736 ERP-988 阿拉娜·博斯 404 854 7736 1.0

4. 倖存者

建立群組並填入主記錄(也稱為「黃金記錄」),以代表群組。

來源名稱 來源位址 來源狀態 來源 電話 來源標識碼 標準位址 標準狀態 標準名稱 標準 電話 相似性
阿拉娜·博什 123 Main Street GA 7708434125 CRM-100 123 主街 GA 阿拉娜·博什 770 843 4125 0.9
博斯,阿拉納 123 主街 喬治亞 404-854-7736 CRM-121 123 主街 GA 阿拉娜·博斯 404 854 7736 1.0
阿拉娜·博斯 (404) 854-7736 ERP-988 阿拉娜·博斯 404 854 7736 1.0
主要記錄: 123 主街 GA 阿拉娜·博斯 404 854 7736

此主要記錄以及改良的源數據和譜系資訊,會載入下游分析解決方案,並連結至事務數據。

此範例顯示基本的自動化 MDM 處理。 您也可以使用數據質量規則來自動計算和更新值,以及標幟遺漏或無效的值,讓數據管理人能夠解決。 數據管理人可協助管理數據,包括管理數據的階層式匯總。

MDM 對整合複雜性的影響

如先前所示,MDM 解決了將數據整合到分析解決方案時遇到的數個常見挑戰。 它包括修正數據品質問題、標準化和擴充數據,以及合理化重複數據。 將 MDM 併入您的分析架構,可藉由消除整合程式中的硬式編碼邏輯,並將它卸除至 MDM 解決方案,進而大幅簡化整合,以從根本上變更數據流。 下表概述與不含 MDM 之整合程式的一些常見差異。

功能 沒有 MDM 使用 MDM
資料品質 整合程式包含品質規則和轉換,可協助修正和更正數據移動。 它需要技術資源才能進行這些規則的初始實作和持續維護,讓數據整合程式變得複雜且昂貴,才能開發和維護。 MDM 解決方案會設定並強制執行數據品質邏輯和規則。 整合程式不會執行任何資料質量轉換,而是將數據「依目前」移至 MDM 解決方案。 開發和維護數據整合程序很簡單且負擔得起。
數據標準化和擴充 整合程式包括標準化和對齊參考和主要數據的邏輯。 開發與第三方服務的整合,以執行位址、名稱、電子郵件和電話數據的標準化。 藉由使用內建規則和第三方數據服務的現成整合,您可以將 MDM 解決方案中的數據標準化,以簡化整合。
重複數據管理 整合程式會根據現有的唯一標識碼,識別並群組應用程式內和跨應用程式存在的重複記錄。 此程式會跨系統共用標識碼(例如 SSN 或電子郵件),而且只會在相同時比對並將它們分組。 更複雜的方法需要對整合工程進行大量投資。 內建機器學習比對功能可識別系統中和跨系統重複的記錄,產生代表群組的黃金記錄。 此程式可讓記錄「模糊比對」,將類似的記錄分組,併產生可解釋的結果。 它會在 ML 引擎無法形成高度信賴的群組的情況下管理群組。
數據管理 數據管理活動只會更新來源應用程式中的數據,例如 ERP 或 CRM。 一般而言,它們會在執行分析時發現問題,例如遺漏、不完整或不正確的數據。 他們會修正來源應用程式中的問題,然後在下一次更新期間,在分析解決方案中更新它們。 要管理的任何新信息都會新增至來源應用程式,這需要時間和成本。 MDM 解決方案具有內建的數據管理功能,可讓使用者存取和管理數據。 在理想情況下,系統會標幟問題,並提示數據管理人加以更正。 快速設定解決方案中的新資訊或階層,讓數據管理人管理它們。

MDM 使用案例

雖然 MDM 有許多使用案例,但少數使用案例涵蓋大部分的實際 MDM 實作。 雖然這些使用案例著重於單一定義域,但它們不太可能只從該網域建置。 換句話說,即使是這些聚焦的使用案例,也很可能包含多個主要數據域。

Customer 360

合併客戶數據分析是最常見的 MDM 使用案例。 組織會跨越來越多的應用程式擷取客戶數據,並在應用程式內建立重複的客戶數據,且不一致和不一致。 這種品質不佳的客戶數據使得難以實現新式分析解決方案的價值。 徵兆包括:

  • 很難回答基本商務問題,例如「神秘 是我們的頂級客戶?」和「我們有多少新客戶?」,需要大量手動操作。
  • 遺失且不正確的客戶資訊,使得難以匯總或向下切入數據。
  • 無法跨系統或業務單位分析客戶數據,因為無法跨組織和系統界限唯一識別客戶。
  • 由於品質不佳的輸入數據,來自 AI 和機器學習的不良品質深入解析。

產品 360

產品數據通常會分散到多個企業應用程式,例如 ERP、PLM 或電子商務。 結果是一項挑戰,瞭解對產品名稱、描述和特性等屬性具有不一致定義的產品總目錄。 參考數據的不同定義進一步使這種情況複雜化。 徵兆包括:

  • 無法支援不同的替代階層式匯總和向下切入路徑,以進行產品分析。
  • 無論是成品或材料庫存,都難以確切地瞭解您手上有哪些產品、您購買產品的廠商,以及重複的產品,導致庫存過剩。
  • 由於定義衝突,導致分析中遺漏或不正確的資訊,因此難以合理化產品。

參考數據 360

在分析內容中,參考數據存在許多數據清單,可協助進一步描述其他主要數據集。 參考數據可以包含國家/地區、貨幣、色彩、大小和測量單位的清單。 不一致的參考數據會導致下游分析中出現明顯的錯誤。 徵兆包括:

  • 相同專案的多個表示。 例如,喬治亞州會顯示為 「GA」 和 「Georgia」,因此難以一致地匯總和向下切入數據。
  • 由於無法跨越系統之間的參考數據值,難以跨應用程式匯總數據。 例如,紅色在 ERP 系統和 PLM 系統中顯示為 “R”。
  • 難以比對組織之間的數字,因為參考數據值因參考數據值而達成一致,以便分類數據。

Finance 360

財務組織嚴重依賴每月、每季和年度報告等重要活動的數據。 具有多個財務和會計系統的組織通常會跨多個總賬擁有財務數據,這些總賬會合併以產生財務報告。 MDM 可以提供集中式位置,以將帳戶、成本中心、商業實體和其他財務數據集對應和管理到合併檢視。 徵兆包括:

  • 難以將多個系統之間的財務數據匯總成合併檢視。
  • 缺乏在金融體系中新增和對應新數據元素的程式。
  • 產生期末財務報告的延遲。

考量

這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework

可靠性

可靠性可確保您的應用程式可以符合您對客戶的承諾。 如需詳細資訊,請參閱 可靠性要素概觀。

Profisee 會以原生方式在 Azure Kubernetes Service 和 Azure SQL 資料庫 上執行。 這兩項服務都提供現用的功能,以支援高可用性。

效能效益

效能效率是工作負載調整的能力,以符合使用者以有效率的方式滿足其需求。 如需詳細資訊,請參閱 效能效率要素概觀

Profisee 以原生方式在 Azure Kubernetes Service 和 Azure SQL 資料庫 上執行。 您可以根據需求設定 Azure Kubernetes Service 來相應增加和相應放大。 您可以在許多不同的組態中部署 Azure SQL 資料庫,以平衡效能、延展性和成本。

安全性

安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱 安全性要素概觀。

Profisee 會透過OpenID 連線驗證使用者,以實作OAuth 2.0驗證流程。 大部分的組織都會將 Profisee 設定為使用 Microsoft Entra 標識符來驗證使用者。 此程式可確保套用並強制執行驗證的企業原則。

成本最佳化

成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化要素概觀。

執行成本包含軟體授權和 Azure 耗用量。 如需詳細資訊,請連絡 Profisee

部署此案例

若要部署此案例:

  1. 使用 ARM範本將 Profisee 部署至 Azure。
  2. 建立 Azure Data Factory
  3. 設定您的 Azure Data Factory 以 連線到 Git 存放庫
  4. 將 Profisee 的 Azure Data Factory 樣本新增至 Azure Data Factory Git 存放庫。
  5. 使用範本建立新的 Azure Data Factory 管線

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步

架構指南

參考架構