此架構提供雲端中的預測性健康情況分析架構,以加速模型開發、部署和取用的路徑。
架構
此架構會使用原生 Azure 分析服務進行資料擷取、儲存體、資料處理、分析和模型部署。
工作流程
此架構的工作流程會以參與者的角色來描述。
資料工程師: 負責擷取來源系統的資料,以及協調資料管線,以將資料從來源移至目標。 也可能負責對原始資料執行資料轉換。
- 在此案例中,歷史醫院重新委任資料會儲存在內部部署 SQL Server 資料庫中。
- 預期的輸出是儲存在雲端式儲存體帳戶中的資料。
資料科學家: 負責在目標儲存層的資料上執行各種工作,以準備模型預測。 這些工作包括清理、特徵工程和資料標準化。
- 清理: 預先處理資料、移除 Null 值、卸載不需要的資料行等等。 在此案例中,卸載含有太多遺漏值的資料行。
- 特徵工程:
- 判斷預測所需輸出所需的輸入。
- 藉由與醫生和護士等專業人員交談,判斷可能的預測因素以進行再讀。 例如,真實世界的證據可能表明糖尿病患者超重是醫院退役的預測值。
- 資料標準化:
- 描述資料的位置和變化性,以便為機器學習工作做好準備。 特徵應該包括資料分佈、扭曲和庫爾特病。
- 扭曲會回答問題:分佈的形狀為何?
- 庫爾托克回答了這個問題:分佈的厚度或重度測量為何?
- 識別並更正資料集中的異常狀況—預測模型應該在具有常態分佈的資料集上執行。
- 預期的輸出是這些訓練資料集:
- 一個用來建立已準備好進行部署的令人滿意預測模型。
- 一個可以提供給公民資料科學家的自動化模型預測 (AutoML) 。
- 描述資料的位置和變化性,以便為機器學習工作做好準備。 特徵應該包括資料分佈、扭曲和庫爾特病。
公民資料科學家: 負責建立以資料科學家定型資料為基礎的預測模型。 公民資料科學家最有可能使用 AutoML 功能,不需要大量編碼技能來建立預測模型。
預期的輸出是已準備好進行部署的令人滿意預測模型。
商業智慧 (BI) 分析師: 負責對資料工程師產生的原始資料執行作業分析。 BI 分析師可能會參與從非結構化資料建立關聯式資料、撰寫 SQL 腳本,以及建立儀表板。
預期的輸出是關聯式查詢、BI 報表和儀表板。
MLOps 工程師: 負責將模型放入資料科學家或公民資料科學家所提供的生產環境中。
預期的輸出是可供生產且可重現的模型。
雖然這份清單提供工作流程中任何時間點可能與醫療保健資料互動之所有潛在角色的完整檢視,但角色可能會視需要合併或擴充。
元件
- Azure Data Factory 是協調流程服務,可將資料從內部部署系統移至 Azure,以與其他 Azure 資料服務搭配使用。 管線用於資料移動,而對應資料流程可用來執行各種轉換工作,例如擷取、轉換、載入(ETL)和擷取、載入、轉換(ELT)。 在此架構中,資料工程師會使用 Data Factory 來執行管線,以將歷史醫院重新委任資料從內部部署 SQL Server 複製到雲端儲存體。
- Azure Databricks 是以 Spark 為基礎的分析和機器學習服務,用於資料工程和 ML 工作負載。 在此架構中,資料工程師會使用 Databricks 呼叫 Data Factory 管線來執行 Databricks 筆記本。 筆記本是由資料科學家所開發,以處理初始資料清理和特徵工程工作。 資料科學家可以在其他筆記本中撰寫程式碼,以標準化資料,以及建置和部署預測模型。
- Azure Data Lake 儲存體 是一項可大幅調整且安全的儲存體服務,適用于高效能分析工作負載。 在此架構中,資料工程師會使用 Data Lake 儲存體來定義載入至 Azure 的內部部署資料的初始登陸區域,以及定型資料的最終登陸區域。 原始或最終格式的資料已可供各種下游系統取用。
- Azure 機器學習 是一種共同作業環境,可用來定型、部署、自動化、管理及追蹤機器學習模型。 自動化機器學習 (AutoML) 是一項功能,可將 ML 模型開發所涉及的耗時和反復工作自動化。 資料科學家會使用 機器學習 來追蹤 Databricks 的 ML 執行,並建立 AutoML 模型,以作為資料科學家 ML 模型的效能基準。 公民資料科學家使用此服務透過 AutoML 快速執行定型資料來產生模型,而不需要機器學習演算法的詳細知識。
- Azure Synapse Analytics 是一項分析服務,可統一資料整合、企業資料倉儲和巨量資料分析。 使用者可以使用無伺服器或專用資源大規模地查詢資料。 在此架構中:
- 資料工程師會使用 Synapse Analytics,輕鬆地從 Data Lake 中的資料建立關聯式資料表,成為作業分析的基礎。
- 資料科學家會用它來快速查詢 Data Lake 中的資料,並使用 Spark 筆記本來開發預測模型。
- BI 分析師會用它來使用熟悉的 SQL 語法來執行查詢。
- Microsoft Power BI 是軟體服務、應用程式和連接器的集合,可一起運作,將不相關的資料來源轉換成一致、視覺沉浸式和互動式深入解析。 BI 分析師會使用 Power BI 從資料開發視覺效果,例如每個病患的家中位置和最近的醫院地圖。
- Microsoft Entra ID 是雲端式身分識別和存取管理服務。 在此架構中,它會控制對 Azure 服務的存取。
- Azure 金鑰保存庫 是雲端服務,可為金鑰、密碼和憑證等秘密提供安全存放區。 金鑰保存庫保存 Databricks 用來取得 Data Lake 寫入存取權的秘密。
- 適用於雲端的 Microsoft Defender是統一的基礎結構安全性管理系統,可強化資料中心的安全性狀態,並在雲端和內部部署的混合式工作負載之間提供進階威脅防護。 您可以使用它來監視 Azure 環境的安全性威脅。
- Azure Kubernetes Service (AKS) 是完全受控的 Kubernetes 服務,可用來部署和管理容器化應用程式。 AKS 藉由將作業額外負荷卸載至 Azure,簡化 Azure 中受控 AKS 叢集的部署。
替代項目
資料移動: 您可以使用 Databricks 將資料從內部部署系統複製到 Data Lake。 通常,Databricks 適用于具有串流或即時需求的資料,例如來自醫療器械的遙測。
機器學習: H2O.ai、DataRobot、Dataiku 和其他廠商提供與 機器學習 autoML 類似的自動化機器學習功能。 您可以使用這類平臺來補充 Azure 資料工程和機器學習活動。
案例詳細資料
此架構代表一個範例端對端工作流程,用於預測糖尿病患者住院的醫院,使用 從 1999 年到 2008 年 10 年中 130 家美國醫院的公開可用資料 。 首先,它會評估預測力的 二元分類 演算法,然後針對使用自動化機器學習所產生的預測模型進行基準測試。 在自動化機器學習無法更正 不平衡資料 的情況下,應該套用替代技術。 選取最後一個模型以進行部署和取用。
隨著醫療保健和生命科學組織努力為患者和照顧者提供更個人化的體驗,他們面臨的挑戰是使用舊版系統的資料來提供相關、準確且及時的預測性見解。 資料收集已超越傳統的作業系統和電子健康記錄(EHR),並越來越多地從消費者健康應用程式、健身可穿戴裝置和智慧醫療設備進入非結構化形式。 組織需要能夠快速集中此資料,並利用資料科學和機器學習的強大功能來保持與客戶的相關能力。
為了達成這些目標,醫療保健和生命科學組織應致力於:
- 建立資料來源,讓預測性分析可以為醫療保健提供者、醫院管理員、製藥廠和其他人員提供即時價值。
- 容納其產業主題專家(SME)沒有資料科學和機器學習技能。
- 提供資料科學和機器學習 (ML) 中小企業所需的彈性工具,以有效率、準確且大規模地建立和部署預測模型。
潛在的使用案例
- 預測醫院重新住院
- 透過 ML 支援的映射加速患者診斷
- 對醫生筆記執行文字分析
- 藉由分析來自醫療物聯網的遠端患者監視資料來預測不良事件 (IoMT)
考量
這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework 。
可用性
提供即時臨床資料和深入解析對許多醫療保健組織而言非常重要。 以下是將停機時間降到最低並保護資料安全的方法:
- Data Lake 儲存體一律 會在主要區域中複寫三次 ,您可以選擇本地備援儲存體 (LRS) 或區域備援儲存體 (ZRS)。
- Synapse Analytics 提供 資料庫還原點和災害復原 。
- Data Factory 資料會儲存並複寫在 Azure 配對區域中 ,以確保商務持續性和災害復原。
- Databricks 為其資料分析平臺提供 災害復原指引 。
- 機器學習部署可以是 多區域 。
效能
Data Factory 自我裝載整合執行時間可以 相應增加,以達到高可用性和延展性 。
安全性
安全性可提供針對蓄意攻擊和濫用寶貴資料和系統的保證。 如需詳細資訊,請參閱 安全性要素 概觀。
醫療保健資料通常包含敏感性受保護的健康資訊 (PHI) 和個人資訊。 下列資源可用來保護此資料:
- Data Lake 儲存體使用 Azure 角色型存取控制 (RBAC) 和存取控制清單 (ACL) 來建立 存取控制模型 。
- Synapse Analytics 提供一些 資料庫、資料行和資料列層級的存取和安全性控制 。 資料也可以在資料格層級和透過 資料加密 來保護。
- Data Factory 提供 混合式和雲端案例中資料移動的基本安全性基礎結構 。
成本最佳化
成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化要素 概觀。
此解決方案的定價是以下列為基礎:
- 所使用的 Azure 服務。
- 資料量。
- 容量和輸送量需求。
- 所需的 ETL/ELT 轉換。
- 執行機器學習工作所需的計算資源。
您可以使用 Azure 定價計算機 來預估成本 。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Matt Hansen |資深雲端解決方案架構師
- 桑迪蘇 |雲端解決方案架構師
下一步
Azure 服務
- 什麼是 Azure Data Factory?
- 什麼是 Azure Databricks?(機器翻譯)
- 使用 MLflow 和 Azure 機器學習追蹤 ML 模型
- Azure Data Lake Storage Gen2 簡介
- 什麼是 Azure 機器學習?
- 什麼是自動化機器學習服務 (AutoML)?
- 什麼是 Azure Synapse Analytics?
- 使用機器學習和 AI 在 Azure Synapse 中釋放預測性分析的強大功能
- 進階分析架構
- Power BI 是什麼?
- 什麼是 Microsoft Entra 識別碼?
- 關於 Azure Key Vault
- 什麼是適用於雲端的 Microsoft Defender?
醫療保健解決方案
- 適用于醫療保健的 Microsoft Cloud
- 適用于醫療保健的 Azure
- Azure API for FHIR
- 適用于 Azure 的 IoMT FHIR 連線or
- 使用物聯網進行遠端病患監視 (IoMT)