使用 Profisee 和 Azure Data Factory 的主要資料管理

Data Factory
Databricks
Data Lake

Azure 可作為許多數位轉型程式的核心,但相依于來自多個來源(商務應用程式、資料庫、資料摘要等)之資料的品質和一致性,並透過商業智慧、分析、機器學習等等提供價值。 Profisee 的主要資料管理 (MDM) 解決方案可透過在來源資料上強制一致的資料標準, (相符、合併、標準化、驗證、正確) ,來完成 Azure 資料資產的「對齊併合並」多個來源的資料。 與 Azure Data Factory 和其他 Azure 資料服務的原生整合,可進一步簡化此程式,以加速傳遞 Azure 的商業利益。

MDM 解決方案運作方式的核心層面是結合多個來源的資料,以建立「黃金記錄主要」,其中包含每一筆記錄的最知名和受信任的資料。 此結構是根據需求在網域中建立的,但幾乎一律需要多個網域。 一般網域是客戶、產品和位置,但網域可以代表從參考資料到合約和藥物名稱的任何事物。 一般來說,更好的領域涵蓋範圍可以與廣泛的 Azure 資料需求相對應。

此架構模式會示範如何將 MDM 併入 Azure 資料服務生態系統中,以改善用於分析和操作決策的資料品質。 MDM 解決了幾個常見的挑戰,包括識別和管理重復資料 (符合和合併) 、標示和解決資料品質問題、標準化及充實資料,以及讓資料負責人主動管理及改善資料的能力。 這種模式提供 MDM 的新式方法,並以原生方式在 Azure 中部署所有技術,包括 Profisee,可透過容器部署並與 Azure Kubernetes Service 協調。

架構

顯示 MDM Profisee 資料流程的影像。

資料流程

  1. 來源資料載入: 商務應用程式的來源資料會複製到 Azure Data Lake,其一開始會儲存以供進一步轉換和在下游分析中使用。 來源資料通常可以分類為三種類別的其中一種:

    • 結構化的主要資料–描述客戶、產品、地點等的資訊。 主要資料量很低、高度複雜,且變更會隨著時間變慢,通常是組織利用資料品質最困難的資料。
    • 結構化交易資料-在特定時間點發生的商務事件,例如訂單、發票或互動。 交易包括該交易的計量 (例如,銷售價格) 和主要資料的參考 (例如,與購買) 相關的產品和客戶。 交易資料通常是高容量、低複雜性和靜態 (不會隨著時間) 而變更。
    • 非結構化資料-可包含檔、影像、影片、社交媒體內容、音訊等等。 新式分析平臺可以逐漸使用非結構化資料來搜集先前無法使用的新見解。 非結構化資料通常會與主要資料相關聯,例如與社交媒體帳戶相關聯的客戶,或與影像相關聯的產品。
  2. 來源主要資料載入: 來自來源商務應用程式的主要資料會載入至 MDM 應用程式。 來源資料應以「原樣」載入,包含完整的歷程資訊和基本的轉換。

  3. 自動 MDM 處理: MDM 解決方案會使用自動化程式來標準化、驗證及擴充資料 (或範例、驗證和標準化位址資料) 、找出資料品質問題、將重複記錄分組 (或範例、重複的客戶) ,以及產生主要記錄 (也稱為黃金記錄) 。

  4. 資料監管: 視需要,資料負責人可以檢查及管理相符記錄的群組、建立/管理資料關聯性、填寫遺漏的資訊,以及解決資料品質問題。 您可以視需要將多個替代階層式匯總管理 (例如,產品階層) 。

  5. 受控主要資料載入: 高品質的主要資料流程向下游分析解決方案。 因為資料整合不再需要任何資料品質轉換,所以會再次簡化此程式。

  6. 交易式和非結構化資料載入: 交易式和非結構化資料會載入至下游分析解決方案,並結合高品質的主要資料。

  7. 視覺效果和分析: 資料會進行模型化,並提供給商務使用者進行分析。 高品質的主要資料可消除常見的資料品質問題,並獲得改良的見解。

單元

  • Azure Data Factory 是混合式資料整合服務,可讓您建立、排程及協調 ETL/ELT 工作流程。

  • Azure Data Lake 針對分析資料提供無限的儲存體。

  • Profisee 是可調整的 MDM 平臺,其設計目的是要輕鬆地與 Microsoft 生態系統整合。

  • Azure Synapse Analytics 是快速、彈性且受信任的雲端資料倉儲,可讓您透過大量平行處理架構,以大規模、計算及儲存彈性和個別進行調整。

  • Power BI 是商務分析工具套件,可將見解提供給整個組織。 連線到數百個數據源、簡化資料準備,以及推動拼湊分析。 產生美觀的報表,然後將其發佈,讓您的組織在 web 和跨行動裝置上使用。

替代方案

缺少特殊用途的 MDMapplication,您可以在 Azure 生態系統中找到一些建立 MDM 解決方案所需的技術功能。

  • 資料品質-載入至分析平臺時,資料品質可以內建于整合程式。 例如,在 Azure Data Factory 管線中套用資料品質轉換可以使用硬式編碼的腳本來完成。
  • 資料標準化和擴充Azure 地圖服務可用來提供位址資料的資料驗證和標準化。 這些可以在 Azure Functions 和/或 Azure Data Factory 中使用。 其他資料的標準化可能需要開發硬式編碼的腳本。
  • 重複的資料管理-Azure Data Factory 可以用來 刪除 足夠的識別碼可供完全相符的資料列。 在此情況下,符合適當存活的合併邏輯可能需要自訂的硬式編碼腳本。
  • 資料管理- Power Apps可以用來快速開發簡單的資料管理解決方案,以管理 Azure 中的資料,以及可供審查、工作流程、警示和驗證的適當使用者介面。

MDM 整合管線

顯示 MDM Profisee 整合管線的影像。

上圖顯示與 Profisee MDM 解決方案整合的詳細資料。 要注意的重點是,Azure Data Factory 和 Profisee 包含原生 REST 整合支援,以提供輕量且現代化的整合。

  1. 將來源資料載入至 MDM: Azure Data Factory 用來從 data lake 取出資料、將其轉換成符合主要資料模型,然後透過 REST 接收器將它串流至 MDM 存放庫。

  2. MDM 處理: MDM 平臺會透過一連串的活動處理來源主要資料,以驗證、標準化及擴充資料,以及執行資料品質進程。 最後,會執行比對和存活來識別和分組重複的記錄,並建立主要記錄。 (選擇性)資料負責人可能會發出工作來執行資料監管。 結果是一組要在下游分析中使用的主要資料。

  3. 載入主要資料以供分析 之用:Azure Data Factory 使用其 REST 來源,將主要資料從 Profisee 串流至 Azure Synapse Analytics。

適用于 Profisee 的 Azure Data Factory 範本

與 Microsoft 合作時,Profisee 開發了一組 Azure Data Factory 範本,可讓您更快速且更輕鬆地將 Profisee 整合到 Azure 資料服務生態系統中。 這些範本會使用 Azure Data factory REST 資料來源和資料接收,從 Profisee 的 REST 閘道 API 讀取和寫入資料。 提供從 Profisee 讀取和寫入的範本。

顯示 MDM Profisee 和 Azure Data Factory 範本的螢幕擷取畫面。

範例 Data Factory 範本:透過 REST Profisee JSON

下列螢幕擷取畫面說明 Azure Data Factory 範本,其會從 Azure Data Lake 中的 JSON 檔案將資料複製到透過 REST Profisee 的資料。

複製來源 JSON 資料:

顯示來源 JSON 資料的螢幕擷取畫面。

然後,資料會透過 REST 同步處理至 Profisee:

顯示 REST 同步至 Profisee 的螢幕擷取畫面。

如需詳細資訊,請參閱 Azure Data Factory Profisee 範本

MDM 處理

在分析 MDM 使用案例中,資料通常是透過 MDM 解決方案,以自動化的方式處理,以載入資料以進行分析。 以下說明此內容中客戶資料的一般處理常式。

1. 來源資料載入

來源資料會從來源系統載入至 MDM 解決方案,包括歷程資訊。 在此情況下,我們有兩個來源記錄,一個來自 CRM,另一個來自 ERP 應用程式,而另一個來自于視覺檢查,這兩個都代表相同的人員。

來源名稱 來源位址 來源狀態 來源電話 來源識別碼 標準位址 標準狀態 標準名稱 標準電話 相似度
Alana Bosh 123主要街道 GA 7708434125 CRM-100
Rode、Alana 123 Main St 喬治亞 404-854-7736 CRM-121
Alana Rode (404) 854-7736 ERP-988

2. 資料驗證和標準化

驗證和標準化規則和服務是用來標準化及驗證位址、名稱和電話號碼資訊。

來源名稱 來源位址 來源狀態 來源電話 來源識別碼 標準位址 標準狀態 標準名稱 標準電話 相似度
Alana Bosh 123主要街道 GA 7708434125 CRM-100 123 Main St GA Alana Bosh 770 843 4125
Rode、Alana 123 Main St 喬治亞 404-854-7736 CRM-121 123 Main St GA Alana Rode 404 854 7736
Alana Rode (404) 854-7736 ERP-988 Alana Rode 404 854 7736

3. 比對

在標準化資料的情況下,會執行比對,以識別群組中記錄之間的相似性。 在此案例中,兩筆記錄會完全以名稱和電話彼此相符,而其他記錄則與名稱和位址相符。

來源名稱 來源位址 來源狀態 來源電話 來源識別碼 標準位址 標準狀態 標準名稱 標準電話 相似度
Alana Bosh 123主要街道 GA 7708434125 CRM-100 123 Main St GA Alana Bosh 770 843 4125 9
Rode、Alana 123 Main St 喬治亞 404-854-7736 CRM-121 123 Main St GA Alana Rode 404 854 7736 1.0
Alana Rode (404) 854-7736 ERP-988 Alana Rode 404 854 7736 1.0

4. 存活

在形成群組的情況下,存活會建立並填入主要記錄 (也稱為「黃金記錄」 ) 來代表群組。

來源名稱 來源位址 來源狀態 來源電話 來源識別碼 標準位址 標準狀態 標準名稱 標準電話 相似度
Alana Bosh 123主要街道 GA 7708434125 CRM-100 123 Main St GA Alana Bosh 770 843 4125 9
Rode、Alana 123 Main St 喬治亞 404-854-7736 CRM-121 123 Main St GA Alana Rode 404 854 7736 1.0
Alana Rode (404) 854-7736 ERP-988 Alana Rode 404 854 7736 1.0
主要記錄: 123 Main St GA Alana Rode 404 854 7736

此主要記錄以及改良的來源資料和歷程資訊,可以載入至下游分析解決方案,並可將其系結回交易資料。

此範例顯示基本的自動化 MDM 處理。 資料品質規則也可以用來自動計算/更新值,並將遺漏或不正確值標示為要解析的資料負責人。 資料負責人也可以管理資料,包括管理階層式資料匯總。

MDM 對整合複雜性的影響

如上所述,MDM 可解決將資料整合至分析解決方案時遇到的幾個常見挑戰。 它包括更正資料品質問題、標準化/充實資料,以及合理化重複的資料。 將 MDM 併入分析架構中,徹底改變了整合程式的硬式編碼邏輯來改變數據流,並將其卸載至 MDM 解決方案,大幅簡化整合。 下表概述整合程式與不含 MDM 的一些常見差異。

功能 沒有 MDM 使用 MDM
資料品質 資料品質規則和轉換會硬式編碼為整合程式,以便在資料移動時進行修正和修正。 這項規則的初始執行和持續性維護都需要技術資源,以便開發和維護資料整合程式相當複雜且昂貴。 資料品質邏輯和規則會由 MDM 解決方案設定和強制執行。 整合程式不會執行任何資料品質轉換,而是將資料「依原樣」移動到 MDM 解決方案中。 資料整合程式簡單且經濟實惠,可供開發及維護。
資料標準化與擴充 標準化並對齊參考和主要資料的邏輯會硬式編碼為整合程式。 您必須使用協力廠商服務來開發整合,以執行位址、名稱、電子郵件和電話資料的標準化。 使用內建規則和協力廠商資料服務的現成整合,可在 MDM 解決方案內將資料標準化,以簡化整合流程。
重複的資料管理 存在於和跨應用程式的重複記錄,會根據現有的唯一識別碼進行識別和分組。 這需要在系統之間共用識別碼 (例如,SSN 或電子郵件) ,而且只有在相同的情況下才能比對和分組。 更複雜的方法需要在整合工程方面進行大量投資。 內建機器學習比對功能可識別系統內和跨系統的重複記錄,並產生代表群組的黃金記錄。 這可讓記錄「模糊比對」,將類似的記錄分組,並產生解釋結果。 群組可在 ML 引擎無法以高信賴度形成群組的情況下進行管理。
資料監管 資料管理活動的限制為更新來源應用程式中的資料 (例如 ERP 或 CRM) 。 通常會在執行分析時發現問題,例如遺失、不完整或不正確的資料。 問題會在來源應用程式中修正,然後在下一次更新時于分析解決方案中更新。 任何要管理的新資訊都必須新增至來源應用程式,這可能需要一些時間且成本高昂。 MDM 解決方案具有內建的資料管理功能,可讓使用者存取和管理資料。 在理想的情況下,系統會設定為標示問題,並提示資料負責人進行修正。 您可以在解決方案中快速設定新的資訊或階層,讓資料負責人可以管理這些資訊或階層。

MDM 使用案例

雖然 MDM 有許多使用案例,但有少數的使用案例涵蓋了大部分的真實世界的 MDM 實施。 請注意,雖然這些使用案例著重于單一網域,但不太可能只會從該網域建立。 換句話說,即使這些專注的使用案例也很可能包含多個主要資料網域。

Customer 360

合併客戶資料以進行分析是最常見的 MDM 使用案例。 組織會在越來越多的應用程式之間捕獲客戶資料,在應用程式內和不一致的情況下建立重複的客戶資料。 這種品質不佳的資料會因為品質較差的客戶資料,而難以實現現代化分析解決方案的價值。 徵兆包括下列挑戰:

  • 很難回答「神秘是我們的頂尖客戶」和「我們擁有多少新客戶」等基本商務問題,需要大量的手動工作。

  • 客戶資訊遺失且不准確,因此難以匯總或向下切入到資料。

  • 無法跨系統或營業單位分析客戶資料,因為無法跨組織和系統界限來唯一識別客戶。

  • 因為品質不佳的輸入資料,來自 AI 和機器學習的不良品質見解。

產品360

產品資料通常會分散到多個企業應用程式,例如 ERP、PLM 或電子商務。 結果是一項挑戰,就是了解具有不一致的屬性定義(例如產品名稱、描述和特性)的產品目錄總計。 這會因為不同的參考資料定義而複雜。 徵兆包括下列挑戰:

  • 無法針對產品分析支援不同的替代階層式匯總套件和向下切入路徑。

  • 不論是已完成貨物或貨物清查、難以瞭解您手邊的產品、購買產品的廠商,以及重複的產品,而導致過度清查。

  • 由於定義衝突而難以合理化產品,導致分析中遺失或不正確的資訊。

參考資料360

在分析內容中,參考資料是以許多資料清單的形式存在,通常用來進一步描述其他的主要資料集。 例如,國家/地區、貨幣、色彩、大小和度量單位的清單。 不一致的參考資料會導致下游分析中的明顯錯誤。 徵兆包括:

  • 相同內容的多種標記法。 例如,以「GA」和「格魯吉亞」陳述的狀態,讓您難以以一致的方式匯總並向下切入資料。

  • 因為無法人行道系統之間的參考資料值,所以無法跨應用程式匯總資料。 例如,紅色的紅色會以 "R" 在 ERP 系統中表示,而在 PLM 系統中表示為 "Red"。

  • 由於已同意參考資料值來分類資料,因此難以將數位系結到組織。

財務360

財務組織高度依賴重要活動的資料,例如每月、每季和每年的報告。 具有多個財務和會計系統的組織,通常會有多個一般總帳的財務資料,而這些總帳需要合併以產生財務報告。 MDM 可以提供集中的位置,以將帳戶、成本中心、商務實體和其他財務資料集對應至合併的觀點,並加以管理。 徵兆包括下列挑戰:

  • 將多個系統中的財務資料匯總成合併式視圖時遇到困難

  • 缺乏在財務系統中加入和對應新資料元素的程式

  • 產生期間結束的財務報告延遲

考量

可用性

Profisee 會在 Azure Kubernetes Service 上以原生方式執行,並 Azure SQL Database。 這兩個服務都提供現成的功能,以支援高可用性。

延展性

Profisee 會在 Azure Kubernetes Service 上以原生方式執行,並 Azure SQL Database。 您可以將 Azure Kubernetes Service 設定為相應增加或相應放大 Profisee (視需要而定)。 Azure SQL Database 可以部署在許多設定中,以平衡效能、擴充性和成本。

安全性

Profisee 會使用 OpenID Connect 來驗證使用者,而這些使用者會實施 OAuth 2.0 驗證流程。 大部分的組織會將 Profisee 設定為根據 Azure Active Directory 來驗證使用者,以確保可套用和強制執行驗證的企業原則。

部署案例

若要部署此案例:

  1. 使用 ARM 範本將 Profisee 部署到 Azure。
  2. 建立 Azure Data Factory
  3. 設定您的 Azure Data Factory 以 連接到 Git 存放庫
  4. 新增 Profisee 的 Azure Data Factory 範本
  5. 使用範本建立新的管線。

定價

執行成本包含軟體授權和 Azure 耗用量。 如需詳細資訊,請參閱 Profisee https://profisee.com/contact/

下一步

瞭解 Azure Data Factory 中 REST 複製連接器 的功能。

深入瞭解 在 Azure 中以原生方式執行的 Profisee

瞭解如何使用 ARM 範本將 Profisee 部署到 Azure。

查看 Profisee Azure Data Factory 範本

架構指南

參考結構