Predikce hospitalních readmissions pomocí tradičních a automatizovaných technik strojového učení

Machine Learning
Synapse Analytics
Data Factory

Vzhledem k tomu, že se organizace v oblasti zdravotní péče a life science snaží poskytovat více přizpůsobené prostředí pro pacienty a zdravotníky, je vyzývá k použití dat ze starších systémů k poskytování prediktivních přehledů, které jsou relevantní, přesné a včasné. Shromažďování dat se přesouvalo nad rámec tradičních provozních systémů a elektronických zdravotních záznamů (EHR) a stále častěji do nestrukturovaných forem z aplikací pro zdravotnictví zákazníků, vhodnosti a inteligentních zdravotnických zařízení. Organizace potřebují mít možnost tato data rychle centralizovat a využít sílu datových věd a strojového učení, aby zůstaly relevantní pro své zákazníky.

Aby bylo možné těchto cílů dosáhnout, měly by se zdravotnické organizace a organizace pro životní vědy zaměřit na:

  • Vytvořte zdroj dat, ze kterého může prediktivní analýza poskytovat hodnotu v reálném čase poskytovatelům zdravotní péče, správcům nemocnice, výrobcům léků a dalším.
  • Přizpůsobte jim oborové odborníky, kteří nemají dovednosti v oblasti datových věd a strojového učení.
  • Flexibilní nástroje, které potřebují k efektivnímu, přesnému a škálování vytváření a nasazování prediktivních modelů, poskytují nástrojům pro datové vědy a strojové učení (ML).

Tato architektura poskytuje prediktivní architekturu analýzy stavu v cloudu, která urychluje vývoj, nasazení a využití modelů.

Potenciální případy použití

  • Predikce hospitalních readmissions
  • Zrychlení diagnostiky pacientů pomocí ML pomocí obrázků
  • Analýza textu u poznámek lékařů
  • Predikce nepříznivých událostí analýzou dat monitorování pacientů na dálku z internetu lékařských věcí (IoMT)

Architektura

Tato architektura představuje ukázkový koncový pracovní postup pro predikci hospitalických readmissions pro pacienty s cukrovkou s využitím veřejně dostupných dat ze 130 amerických nemocnice za 10 let od roku 1999 do roku 2008. Nejprve vyhodnotí binární klasifikační algoritmus pro prediktivní výkon a pak ho srovnávacím testem proti prediktivním modelům, které se generují pomocí automatizovaného strojového učení. V situacích, kdy automatizované strojové učení nemůže napravit nevyvážená data,by se měly použít alternativní techniky. Pro nasazení a spotřebu se vybere finální model.

Tato rozhraní využívá nativní analytické služby Azure pro příjem dat, úložiště, zpracování dat, analýzu a nasazení modelu.

Architektura vícevrstvé aplikace

Architektura je popsána z hlediska rolí účastníků.

  1. Datoví technici: Zodpovídá za ingestování dat ze zdrojových systémů a orchestraci datových kanálů pro přesun dat ze zdroje do cíle. Může také odpovědná za provádění transformací dat u nezpracovaných dat.

    • V tomto scénáři se historická data o čtení z nemocnice ukládají do místní SQL Server databáze.
    • Očekávaným výstupem je vyřazení dat uložených v účtu cloudového úložiště.
  2. Datoví vědci: Zodpovídá za provádění různých úloh s daty v cílové vrstvě úložiště, aby se připravila na predikci modelu. Mezi tyto úlohy patří čištění, inženýring funkcí a standardizace dat.

    • Čištění: Předzpracujte data, odstraňte hodnoty null, odstraňte nepožedné sloupce atd. V tomto scénáři vytáhněte sloupce s příliš mnoha chybějícími hodnotami.
    • Feature Engineering (Technická technika funkcí):
      1. Určete vstupy, které jsou potřeba k predikci požadovaného výstupu.
      2. Určete možné předpovědi pro readmittaci, třeba tak, že promluvíte s odborníky, jako jsou lékaři a zdravotníci. Například skutečný důkaz může naznačovat, že pacient s cukrovkou, který je nadváhou, je předpověď pro hospitalizaci.
    • Standardizace dat:
      1. Charakterizujte umístění a variabilitu dat a připravte je na úlohy strojového učení. Tyto znaky by měly zahrnovat distribuci dat, nesměrnost a smyšlivost.
        • Neschůdnost odpovídá na otázku: Jaký je tvar rozdělení?
        • Na otázku odpoví: Jaká je míra tloušťky nebo tíže rozdělení?
      2. Identifikace a oprava anomálií v datové sadě – model predikce by se měl provádět u datové sady s normálním rozdělením.
      3. Očekávaným výstupem jsou tyto trénovací datové sady:
        • Jeden z nich slouží k vytvoření uspokojivého predikčního modelu, který je připravený k nasazení.
        • Jednu, kterou je možné dát modelu Citizen Datoví vědci pro automatizované predikce modelu (AutoML).
  3. Citizen Datoví vědci: Zodpovídá za vytvoření predikčního modelu založeného na trénovací data z Datoví vědci. Služba Citizen Datoví vědci nejpravděpodobněji používá funkci AutoML, která k vytváření předpovědí nevyžaduje velké znalosti kódování.

    Očekávaný výstup je uspokojivý predikční model, který je připravený k nasazení.

  4. Analytik business intelligence (BI): Zodpovídá za provádění provozní analýzy nezpracovaných dat, která Datoví technici vytváří. Analytik BI se může podílet na vytváření relačních dat z nestrukturovaných dat, psaní SQL skriptech a vytváření řídicích panelů.

    Očekávaným výstupem jsou relační dotazy, sestavy BI a řídicí panely.

  5. Inženýr MLOps: Zodpovídá za produkční modely, které Datoví vědci nebo Datoví vědci služeb.

    Očekávaným výstupem jsou modely, které jsou připravené pro produkci a reprodukovatelné.

I když tento seznam poskytuje komplexní přehled o všech potenciálních rolích, které mohou v libovolném bodě pracovního postupu komunikovat se zdravotnickými daty, může se role podle potřeby konsolidovat nebo rozšiřovat.

Komponenty

  • Azure Data Factory je orchestrace, která může přesouvat data z místních systémů do Azure a pracovat s dalšími datovými službami Azure. Pipelines se používají pro přesun dat a mapování toků dat se používají k provádění různých transformačních úloh, jako je extrakce, transformace, načítání (ETL) a extrakce, načítání, transformace (ELT). V této architektuře používá Datoví technici k Data Factory kanálu, který kopíruje historická data o čtení z nemocnice z místního úložiště SQL Server do cloudového úložiště.
  • Azure Databricks je služba pro analýzy a strojové učení založená na Sparku, která se používá pro přípravu dat a ML úloh. V této architektuře používá Datoví technici Databricks k volání kanálu Data Factory ke spuštění poznámkového bloku Databricks. Poznámkový blok je vyvinutý Datoví vědci pro zpracování počátečních úloh čištění dat a projektování funkcí. Aplikace Datoví vědci psát kód v dalších poznámkových blocích pro standardizaci dat a vytváření a nasazování predikčních modelů.
  • Azure Data Lake Storage je masivně škálovatelná a zabezpečená služba úložiště pro vysoce výkonné analytické úlohy. V této architektuře používá Datoví technici Data Lakes Storage k definování počáteční cílové zóny pro místní data načtená do Azure a konečné cílové zóny pro trénovací data. Data jsou v nezpracovaných nebo konečných formátech připravená k využití různými systémy pro příjem dat.
  • Azure Machine Learning je prostředí pro spolupráci, které se používá k trénování, nasazování, automatizaci, správě a sledování modelů strojového učení. Automatizované strojové učení (AutoML) je funkce, která automatizuje časově náročné a iterativní úlohy, které jsou součástí ML modelu. Služba Datoví vědci používá Machine Learning ke sledování ML spuštění z Databricks a k vytvoření modelů AutoML, které slouží jako srovnávací test výkonu pro Datoví vědci modely ML dat. Služba Citizen Datoví vědci používá tuto službu k rychlému spouštění trénovací dat prostřednictvím AutoML k vygenerování modelů, aniž by potřebovala podrobné znalosti algoritmů strojového učení.
  • Azure Synapse Analytics analytická služba, která sjednocuje integraci dat, skladování podnikových dat a analýzu velkých dat. Uživatelé mají volnost dotazovat se na data pomocí bez serveru nebo vyhrazených prostředků ve velkém měřítku. V této architektuře:
    • Služba Datoví technici používá Synapse Analytics ke snadnému vytváření relačních tabulek z dat v datovém jezeře, které jsou základem provozní analýzy.
    • Aplikace Datoví vědci používá k rychlému dotazování dat v datovém jezeře a k vývoji modelů předpovědí pomocí poznámkových bloků Spark.
    • Analytik BI ho používá ke spouštění dotazů pomocí známé SQL syntaxe.
  • Microsoft Power BI je kolekce softwarových služeb, aplikací a konektorů, které společně převedou nesouvisející zdroje dat na koherentní, vizuálně poutavé a interaktivní přehledy. Analytik BI používá Power BI k vývoji vizualizací z dat, jako je například mapa domova jednotlivých pacientů a nejbližší nemocnice.
  • Azure Active Directory (Azure AD) je cloudová služba pro správu identit a přístupu. V této architektuře řídí přístup ke službám Azure.
  • Azure Key Vault je cloudová služba, která poskytuje zabezpečené úložiště tajných kódů, jako jsou klíče, hesla a certifikáty. Key Vault obsahuje tajné kódy, které Databricks používá k získání přístupu k zápisu do datového jezera.
  • Azure Security Center je jednotný systém správy zabezpečení infrastruktury, který posiluje postoj k zabezpečení datových center a poskytuje pokročilou ochranu před hrozbami napříč hybridními úlohami v cloudu i v místním prostředí. Můžete ho použít k monitorování bezpečnostních hrozeb pro prostředí Azure.
  • Azure Kubernetes Service (AKS) je plně spravovaná služba Kubernetes pro nasazování a správu kontejnerizovaných aplikací. AKS zjednodušuje nasazení spravovaného clusteru AKS v Azure tím, že přesouvání provozní režie do Azure.

Alternativy

  • Přesun dat: Databricks můžete použít ke kopírování dat z místního systému do datového jezera. Databricks je obvykle vhodný pro data, která mají požadavek na streamování nebo v reálném čase, jako je telemetrie ze zdravotnického zařízení.

  • Machine Learning: H2O.ai, DataRobot, Dataiku a další dodavatelé nabízejí možnosti automatizovaného strojového učení, které se podobají Machine Learning AutoML. Tyto platformy můžete použít k doplnění aktivit strojového učení a přípravu dat Azure.

Požadavky

Začleňuje následující pilíře Microsoft Azure Well-Architected Frameworku pro vysoce dostupný a zabezpečený systém:

Dostupnost

Poskytování zdravotnických dat a přehledů v reálném čase je pro mnoho zdravotnických organizací klíčové. Tady jsou způsoby, jak minimalizovat výpadky a udržet data v bezpečí:

  • Data Lake Storage se vždy replikuje třikrát v primární oblasti s možností výběru místně redundantního úložiště (LRS) nebo zónově redundantního úložiště (ZRS).
  • Synapse Analytics poskytuje body obnovení databáze a zotavení po havárii.
  • Data Factory se ukládají a replikují do spárované oblasti Azure, aby se zajistila kontinuita podnikových služeb a zotavení po havárii.
  • Databricks poskytuje pokyny pro zotavení po havárii pro svou platformu pro analýzu dat.
  • Toto Machine Learning může být multiregionální.

Výkon

Pro Data Factory a škálovatelnost je možné škálovat virtuální prostředí Integration Runtime v samostatném prostředí.

Zabezpečení

Data zdravotní péče často obsahují citlivé chráněné informace o stavu (FÍ) a osobní údaje. K zabezpečení těchto dat jsou k dispozici následující zdroje:

Ceny

Ceny za toto řešení jsou založené na:

  • Používané služby Azure.
  • Objem dat
  • Požadavky na kapacitu a propustnost.
  • Transformace ETL/ELT, které jsou potřeba.
  • Výpočetní prostředky, které jsou potřeba k provádění úloh strojového učení.

Náklady můžete odhadnout pomocí cenové kalkulačky Azure.

Další kroky

Služby Azure

Řešení zdravotnictví