使用 Azure 和 CluedIn 進行主要數據管理

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure 監視器

此 CluedIn 架構為企業提供其內嵌資料品質的計量,以智慧方式偵測臟數據,並準備數據工程師和數據管理人清除數據。 專屬模糊邏輯機器學習演算法可協助商務使用者和策展人標記數據,並教導系統識別、更正及防止一段時間的數據質量問題。

架構

Diagram showing CluedIn architectural structure and data flow.

下載此架構的 Visio 檔案

資料流程

CluedIn 解決方案是由在 Azure Kubernetes Service (AKS) 的 Kubernetes 叢集中執行的各種功能層所組成。 .NET Core 微服務應用程式的組合會處理不同的功能,例如數據擷取、串流數據處理、佇列和使用者介面。

  1. CluedIn 編目層會透過 Azure Data Factory 連接器從客戶雲端來源擷取數據,例如 Azure SQL DB、Azure Cosmos DB、PostgreSQL 和 Salesforce 資料庫。

    CluedIn 也會從 SAP、Oracle、IBM 和 Hadoop 等內部部署可存取系統取得輸入,也可以使用內部部署代理程式來編目非公用數據。

  2. 企業服務總線會透過埠 5672 和 15672 連線到系統管理端點。 編目程式會透過埠 5672 將數據傳送至總線,而處理層會取用來自總線的數據。

  3. 事務歷史記錄層會從處理層取得結果。

  4. 在持續性層中,資料庫會取用事務歷史記錄中的數據,並保存它,以提供不同數據存放區之間的最終一致性。 所有商店都會以高可用性 (HA) 模式執行。

    與數據虛擬化不同,CluedIn 持續性層會擷取源數據的部分,並保留數據及其結構的最高逼真度版本。 這個高逼真度表示 CluedIn Data Fabric 可以針對任何格式或模型的數據提供商務要求。

  5. 數據抽象層會透過每個存放區的埠連線到不同的數據存放區。

  6. 數據存取是透過 GraphQL、REST 和 WebSockets 透過埠 443 呼叫。 GraphQL 和 REST 使用提取模型,而 WebSockets 會使用推送模型。

    CluedIn 會透過節流和跨網站偽造要求來保護數據存取。CSRF 的預防。

  7. CluedIn ASP.NET Core Web 應用程式會透過埠 443 的 REST 和 GraphQL 呼叫組合進行通訊。

    從瀏覽器到應用程式的所有通訊都會使用一組輸入定義,只需要單一公用IP位址。 在生產環境中,所有通訊都是透過安全套接字層 (SSL) 進行。

  8. CluedIn 應用程式提供已清除、已處理的數據到 Power BI 和 Azure Synapse Analytics 等分析服務,以產生深入解析。 系統會備份並儲存 SQL 或 Redis 資料庫中的所有數據。

元件

CluedIn 會在 Azure Kubernetes Service (AKS)執行,這是高可用性、安全且完全受控的 Kubernetes 服務,可用來部署和管理容器化應用程式。 AKS 提供無伺服器 Kubernetes、整合式 CI/CD,以及企業級安全性和治理。

CluedIn 使用 並支援許多資料庫來源和服務,包括:

  • Azure SQL 資料庫,受控關係型雲端資料庫服務,一律為最新狀態,並可依需求自動調整資源。
  • Azure SQL 受控執行個體,以取得與現有 SQL Server 應用程式的廣泛 SQL Server 引擎相容性。 SQL 受管理執行個體 提供內部部署資料庫基礎結構,以及彈性規模、統一管理和雲端計費模型等 Azure 雲端優點。
  • Azure Cosmos DB 是完全受控的非關係型 NoSQL 無伺服器資料庫,用於新式應用程式開發。
  • Azure Data Lake 是可調整的數據記憶體和分析服務。
  • Azure Data Factory 是完全受控、無伺服器的數據整合解決方案,可大規模擷取、準備和轉換數據。 CluedIn 使用超過 90 個內建 Data Factory 連接器,從 Amazon Redshift、Google BigQuery、HDFS、Oracle Exadata、Teradata、Salesforce、Marketo、ServiceNow 和所有 Azure 數據服務等來源取得數據。

CluedIn 會將已處理、控管的數據提供給許多分析應用程式和服務,包括:

  • Azure Databricks 是快速、簡單且共同作業的 Apache Spark 分析服務。
  • Azure Synapse Analytics 是一項無限制的分析服務,可將企業數據倉儲和巨量數據分析整合在一起。
  • Log Analytics,Azure 入口網站 工具,可從 Azure 監視器記錄數據編輯、執行及分析查詢。
  • Azure 認知服務,這是一系列完整的 AI 服務和認知 API,可用於建置智慧型應用程式。
  • Power BI 是一項 Microsoft 商務分析服務,結合了互動式視覺效果和商業智慧與易於使用的報表建立介面。

案例詳細資料

現代企業公司基於數據的許多流程和專案,但原始數據必須準備好供取用。 從進階分析到機器學習的數據使用案例都需要類似的數據準備程式和注意。

  1. 數據專案會從數據 探索開始,以判斷數據的位置及其使用的系統。
  2. 然後,數據 整合 會將多個數據源結合到統一或連線的數據集。
  3. 下一個步驟是標準化、標準化、協調及清理數據,讓機器能夠以統一、一致且高逼真的方式處理數據。
  4. 最後,數據必須輕鬆且隨時可供商務需求使用。

在這些程式期間, 治理 必須確保具有清楚擁有權、完整可追蹤性的數據控制和隱私權保護,以及數據源、處理和使用稽核線索。

CluedIn 平臺會將這些數據管理程式和支柱封裝成一致的、一致的端對端主要 資料管理 (MDM) 解決方案。 CluedIn 使用稱為 最終連線 的數據整合技術,產生比傳統 擷取、轉換、載入 (ETL)擷取、載入、轉換 (ELT) 模型更好的結果。 最終的連線能力會使用 GraphQL 查詢,從許多孤立數據源順暢地混合數據。

在最終連線能力下,數據不會在進入或載入其他系統中時聯結或混合。 相反地,CluedIn 會依目前方式載入數據,並使用元數據標記記錄。 最後,具有相同標記的記錄會合併或建立圖形中的關聯性。

這項複雜的數據合併技術為數據驅動解決方案提供了基礎。 CluedIn Data Fabric 會將數據整合到管線中,以清理、準備、模型、控管、擴充、重複數據刪除和目錄數據,使其可供商務使用輕鬆存取。

CluedIn 為企業提供擷取數據品質的計量,以智慧方式偵測臟數據,並準備數據工程師和數據管理人清除數據。 專屬模糊邏輯機器學習演算法可協助商務使用者和策展人標記數據,並教導系統識別、更正及防止一段時間的數據質量問題。

CluedIn 包含企業級治理,以確保您可以安全地且自信地使用您的數據。 CluedIn 可以將清理、控管的數據直接串流處理至 Power BI、Azure Databricks、Azure Synapse Analytics 或 Azure 認知服務等分析系統,以便讓其餘企業輕鬆使用。 自動調整的原生支援利用 Azure 的強大功能,為最大的數據工作負載提供可調整的環境。

潛在的使用案例

建置單一數據檢視

  • 由於 CluedIn 的語意模型化,因此相較於傳統方法,它可讓您更輕鬆地建置主數據的單一檢視。 CluedIn 的客戶會使用 CluedIn 來建置最重要商務數據的連線、歷史及高質量檢視。 CluedIn 不僅支援 人員、公司、廠商和產品等傳統 Master 網域的掌握,而且支援和無休止的不同網域數目,以及檔案、郵件、事件等非結構化網域。 如果您需要完整、擴充、控管、品質控制和編錄的主要數據的集中式存放庫,則 CluedIn 非常適合您的使用案例。

數據網狀架構

  • 2020 年,CluedIn 是一個「金庫」廠商,因為它能夠將來自 10 個、100 和 1000 個不同複雜數據源的數據協調到統一的數據中樞。 如果您需要輕鬆地從許多不同的數據源擷取數據,則 CluedIn 可以做為數據網狀架構來達成此目的。 這可為您的數據提供串流基礎結構,也可以在數據流向下游取用者時主動清除並掌握數據。

複雜合併和連結主要數據

  • CluedIn 的獨特數據模型化方法會利用圖形資料庫,讓複雜的數據能夠與簡單性合併和連結。 不同於傳統方法,為了解決這項挑戰,CluedIn 會新增額外的機器學習和圖形分析,以使用非常高的精確度來合併、比對和鏈接記錄。

考量

這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework

可靠性

可靠性可確保您的應用程式可以符合您對客戶的承諾。 如需詳細資訊,請參閱 可靠性要素概觀。

  • CluedIn 會採用自動每日資料庫備份,並預設將其保留在長期記憶體中 30 天。 整個平臺是以維護所有子系統備份的備援容錯堆疊為基礎所建置。 全天候監視系統可確保服務盡可能不受污染。 CluedIn 遵循基礎結構備援的業界標準做法。

  • CluedIn 只會呈現並儲存數據的表示法,而不是原始版本。 如果 CluedIn 偵測到破壞性的數據入侵,它可以暫時從您的伺服器抹除 CluedIn 數據。 一旦入侵消退,CluedIn 會重新收集數據,以回到其原始狀態。

  • 所有資料存放區都會以高可用性模式執行。

延展性

  • CluedIn 會在 Docker 容器執行,並使用 Kubernetes 來裝載及協調應用程式的不同部分。 此架構表示 CluedIn 在彈性環境中運作良好,並可自動調整為所需的大小和基礎結構。

  • 自動調整的原生支援利用 Azure 的強大功能,為最大的數據工作負載提供可調整的環境。

  • 無架構圖形模型化會自動從源數據推斷數據模型。 新的數據源會自動連線到所有其他數據源,而不需要明確整合。 數據源數目可以無限調整,而不需要增加整合複雜度。

安全性

安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱 安全性要素概觀。

  • CluedIn 安全性會透過 Azure RBAC 授與許可權和控制對不同服務的存取權,並使用 Azure 金鑰保存庫 安全性密鑰控制和 Azure 監視器存取追蹤和記錄。

  • 除了已驗證的用戶帳戶,CluedIn 也支援單一登錄 (SSO) 和身分識別架構。 對 CluedIn 應用程式的要求會使用與使用者身分識別沒有關聯的加密存取令牌。

  • CluedIn 會管理多個防火牆和 Proxy 層背後的預存數據表示法,並使用一組唯一密鑰進行驗證。

  • CluedIn 會儲存具有 256 位 AES 加密的所有源數據,其強於或等於所支援數據源的加密層級。

  • 節流和 CSRF 防護可保護數據存取。

DevOps

  • CluedIn 使用 Azure Pipelines 持續整合和持續傳遞 (CI/CD) 管線來處理 AKS 環境的部署和輪流更新。

  • CluedIn 支援單元、整合和功能測試,以確保數據如預期般轉換。 虛擬化處理管線可以在記憶體中執行,以進行沙箱測試。 生產等級判斷提示可協助偵錯和追蹤數據問題。

  • 針對測試和生產環境,CluedIn 提供 Helm 套件管理員 圖表,以在 Kubernetes 叢集中快速安裝 CluedIn。 完整編寫文本的數據部署程式支援設定、測試和推出。

成本最佳化

成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化要素概觀。

CluedIn 的定價是開放且透明的。 您可以在其 網站上看到定價。

Azure 重設大小並開始試用

您可以在其 網站上開始 7 天的 CluedIn 試用版,這也可協助您針對不同大小環境預先建置的 Azure 預估來設定 Azure 裝載成本的範圍。

部署此案例

  • 若要使用 Docker 部署 CluedIn 以進行開發和評估,請參閱 使用 Docker 的 CluedIn。

  • 若要在 Kubernetes 叢集中快速安裝 CluedIn,請參閱 使用 Kubernetes 的 CluedIn。 Helm 圖表會安裝 CluedIn 伺服器、網站和其他必要服務,例如記憶體和佇列。

下一步