Allt eftersom sjukvårds- och life science-organisationer strävar efter att tillhandahålla en mer anpassad upplevelse för patienter och vårdgivare, måste de använda data från äldre system för att ge förutsägelseinsikter som är relevanta, korrekta och i rätt tid. Datainsamlingen har gått längre än traditionella driftsystem och elektroniska hälsojournaler och i allt större utsträckning till ostrukturerade former från konsumenthälsoappar, träningsutrustning och smarta medicinska enheter. Organisationer behöver kunna centralisera dessa data snabbt och utnyttja kraften i datavetenskap och maskininlärning för att hålla sig relevanta för sina kunder.
För att uppnå dessa mål bör vård- och life science-organisationer ha som mål att:
- Skapa en datakälla från vilken förutsägelseanalys kan ge mervärde i realtid till vårdgivare, sjukhusadministratörer, läkemedelstillverkare med mera.
- Tillgodose sina branschexperter (SMF) som inte har datavetenskaps- och maskininlärningskunskaper.
- Ge SMF:erna för datavetenskap och maskininlärning (ML) de flexibla verktyg som de behöver för att skapa och distribuera förutsägelsemodeller effektivt, korrekt och i stor skala.
Den här arkitekturen tillhandahåller ett ramverk för förutsägelseanalys i molnet för att påskynda vägen för modellutveckling, distribution och förbrukning.
Potentiella användningsfall
- Förutsäga sjukhusbehörigheter
- Påskynda patientdiagnosen genom ML med hjälp av avbildning
- Utföra textanalys på läkares anteckningar
- Förutsäga negativa händelser genom att analysera övervakningsdata från fjärranslutna patienter från Internet of Medical Things (IoMT)
Arkitektur
Den här arkitekturen representerar ett exempelarbetsflöde från slutet till slut för att förutsäga sjukhusläsningar för diabetespatienter, med hjälp av offentligt tillgängliga data från 130 amerikanska sjukhus under de 10 åren från 1999 till 2008. Först utvärderar den en binär klassificeringsalgoritm för förutsägelsekraft och jämför den sedan med förutsägelsemodeller som genereras med hjälp av automatiserad maskininlärning. I situationer där automatiserad maskininlärning inte kan korrigera för obalanserade databör alternativa tekniker användas. En slutlig modell väljs för distribution och förbrukning.
Det här ramverket använder inbyggda Azure-analystjänster för datainmatning, lagring, databearbetning, analys och modelldistribution.
Arkitekturen beskrivs i termer av rollerna för deltagarna.
Dataingenjör: Ansvarar för att mata in data från källsystemen och orkestrera datapipelines för att flytta data från källan till målet. Kan också ansvara för att utföra datatransformering på rådata.
- I det här scenariot lagras historiska data om sjukhusbehörigheter i en lokal SQL Server databas.
- Förväntade utdata är återtagningsdata som lagras i ett molnbaserat lagringskonto.
Dataforskare: Ansvarar för att utföra olika uppgifter på data i mållagringslagret för att förbereda dem för modellförutsägelse. Uppgifterna omfattar rensning, funktionsteknik och datastandardisering.
- Rensning: Förbe bearbeta data, ta bort null-värden, ta bort kolumner som inte används och så vidare. I det här scenariot släpper du kolumner med för många saknade värden.
- Funktionstekniker:
- Fastställ de indata som behövs för att förutsäga önskade utdata.
- Fastställa möjliga prediktorer för återinläsning, kanske genom att prata med experter som läkare och läkare. Verkliga bevis kan till exempel tyda på att en diabetesbetiker patient är en prediktor för inläsning av sjukhus.
- Datastandardisering:
- Beskriva platsen och variabiliteten för data för att förbereda dem för maskininlärningsuppgifter. Characteriseringarna bör innehålla datadistribution, skevhet och snedfördelning.
- Skevhet svarar på frågan: Hur ser fördelningen ut?
- Ett svar på frågan: Vad är måttet på tjockleken eller fördelningens höghet?
- Identifiera och korrigera avvikelser i datauppsättningen – förutsägelsemodellen bör utföras på en datauppsättning med en normalfördelning.
- Förväntade utdata är dessa träningsdatauppsättningar:
- En som kan användas för att skapa en tillfredsställande förutsägelsemodell som är redo för distribution.
- En som kan ges till en citizen-Dataforskare för automatisk modellförutsägelse (AutoML).
- Beskriva platsen och variabiliteten för data för att förbereda dem för maskininlärningsuppgifter. Characteriseringarna bör innehålla datadistribution, skevhet och snedfördelning.
Citizen Dataforskare: Ansvarar för att skapa en förutsägelsemodell som baseras på träningsdata från Dataforskare. En Dataforskare använder troligen en AutoML-funktion som inte kräver tunga kodningskunskaper för att skapa förutsägelsemodeller.
Förväntade utdata är en tillfredsställande förutsägelsemodell som är redo för distribution.
Business Intelligence-analytiker (BI): Ansvarar för att utföra driftsanalys på rådata som Dataingenjör producerar. BI-analytikern kan vara inblandad i att skapa relationsdata från ostrukturerade data, skriva SQL skript och skapa instrumentpaneler.
Förväntade utdata är relationsfrågor, BI-rapporter och instrumentpaneler.
MLOps-tekniker: Ansvarar för att produktionsmodeller som Dataforskare eller Citizen Dataforskare tillhandahåller.
Förväntade utdata är modeller som är redo för produktion och reproducerbara.
Även om den här listan ger en omfattande vy över alla potentiella roller som kan interagera med hälso- och sjukvårdsdata när som helst i arbetsflödet, kan rollerna konsolideras eller utökas efter behov.
Komponenter
- Azure Data Factory är en orkestreringstjänst som kan flytta data från lokala system till Azure för att arbeta med andra Azure-datatjänster. Pipelines används för dataförflyttning och mappning av dataflöden används för att utföra olika transformeringsuppgifter som extrahering, transformering, inläsning (ETL) och extrahering, inläsning, transformering (ELT). I den här Dataingenjör använder Data Factory för att köra en pipeline som kopierar historiska data om sjukhusläsning från en lokal SQL Server till molnlagring.
- Azure Databricks är en Spark-baserad analys- och maskininlärningstjänst som används för datateknik och ML arbetsbelastningar. I den här arkitekturen använder Dataingenjör Databricks för att anropa en Data Factory-pipeline för att köra en Databricks-notebook-dator. Notebook-datorn har utvecklats av Dataforskare för att hantera den inledande datarensningen och funktionsteknikern. Data Dataforskare skriva kod i ytterligare notebook-datorer för att standardisera data och för att skapa och distribuera förutsägelsemodeller.
- Azure Data Lake Storage är en mycket skalbar och säker lagringstjänst för högpresterande analysarbetsbelastningar. I den här arkitekturen använder Dataingenjör Data Lakes Storage för att definiera den första landningszonen för lokala data som läses in i Azure och den slutliga landningszonen för träningsdata. Data i obearbetat eller slutligt format är klara att konsumeras av olika underordnade system.
- Azure Machine Learning är en samarbetsmiljö som används för att träna, distribuera, automatisera, hantera och spåra maskininlärningsmodeller. Automatiserad maskininlärning (AutoML) är en funktion som automatiserar de tidskrävande och iterativa uppgifter som ingår i ML modellutveckling. I Dataforskare används Machine Learning för att spåra ML-körningar från Databricks och för att skapa AutoML-modeller som fungerar som prestandatest för Dataforskare:s ML modeller. En citizen Dataforskare använder den här tjänsten för att snabbt köra träningsdata via AutoML för att generera modeller, utan att behöva detaljerad kunskap om maskininlärningsalgoritmer.
- Azure Synapse Analytics är en analystjänst som kombinerar dataintegrering, informationslager i företag och stordataanalys. Användare har friheten att fråga efter data med hjälp av serverlösa eller dedikerade resurser i stor skala. I den här arkitekturen:
- Den Dataingenjör använder Synapse Analytics för att enkelt skapa relationstabeller från data i datasjön som grund för driftsanalys.
- Data Dataforskare för att snabbt fråga efter data i datasjön och utveckla förutsägelsemodeller med hjälp av Spark-notebook-datorer.
- BI-analytikern använder den för att köra frågor med hjälp av SQL syntax.
- Microsoft Power BI är en samling programvarutjänster, appar och anslutningsappar som fungerar tillsammans för att omvandla orelaterade datakällor till sammanhängande, visuellt fördjupande och interaktiva insikter. BI-analytikern använder Power BI för att utveckla visualiseringar från data, till exempel en karta över varje patients hemplats och närmaste sjukhus.
- Azure Active Directory (Azure AD) är en molnbaserad tjänst för identitets- och åtkomsthantering. I den här arkitekturen styr den åtkomsten till Azure-tjänsterna.
- Azure Key Vault är en molntjänst som tillhandahåller ett säkert lager för hemligheter som nycklar, lösenord och certifikat. Key Vault innehåller hemligheterna som Databricks använder för att få skrivåtkomst till datasjön.
- Microsoft Defender for Cloud är ett enhetligt system för hantering av infrastruktursäkerhet som förstärker datacenters säkerhetsstatus och ger avancerat skydd mot hot i hybridarbetsbelastningar i molnet och lokalt. Du kan använda den för att övervaka säkerhetshot mot Azure-miljön.
- Azure Kubernetes Service (AKS) är en fullständigt hanterad Kubernetes-tjänst för distribution och hantering av program i containrar. AKS förenklar distributionen av ett hanterat AKS-kluster i Azure genom att avlasta driftkostnaderna till Azure.
Alternativ
Dataförflyttning: Du kan använda Databricks för att kopiera data från ett lokalt system till datasjön. Databricks är vanligtvis lämpligt för data som har ett strömnings- eller realtidskrav, till exempel telemetri från en medicinsk enhet.
Machine Learning: H2O.ai, DataRobot, Data automation och andra leverantörer erbjuder automatiserade maskininlärningsfunktioner som liknar Machine Learning AutoML. Du kan använda sådana plattformar för att komplettera Azures datateknik- och maskininlärningsaktiviteter.
Överväganden
Införliva följande grundpelare för Microsoft Azure Well-Architected Framework för ett säkert system med hög tillgång:
Tillgänglighet
Det är viktigt för många vårdorganisationer att tillhandahålla kliniska data och insikter i realtid. Här är några sätt att minimera stilleståndstiden och skydda data:
- Data Lake Storage replikeras alltid tre gånger i den primära regionen, med alternativet att välja lokalt redundant lagring (LRS) eller zonredundant lagring (ZRS).
- Synapse Analytics databasåterställningspunkter och haveriberedskap.
- Data Factory data lagras och replikeras i en Länkad Azure-region för att säkerställa affärskontinuum och haveriberedskap.
- Databricks tillhandahåller vägledning för haveriberedskap för sin dataanalysplattform.
- Den Machine Learning distributionen kan vara multi-regional.
Prestanda
Den Data Factory integrationskörning med egen värd kan skalas upp för hög tillgänglighet och skalbarhet.
Säkerhet
Hälso- och sjukvårdsdata innehåller ofta känslig skyddad hälsoinformation (PHI) och personlig information. Följande resurser är tillgängliga för att skydda dessa data:
- Data Lake Storage använder rollbaserad åtkomstkontroll i Azure (RBAC) och åtkomstkontrollistor (ACL: er) för att skapa en åtkomstkontrollmodell.
- Synapse Analytics innehåller ett antal åtkomst- och säkerhetskontroller på databas-, kolumn- och radnivå. Data kan också skyddas på cellnivå och via datakryptering.
- Data Factory en grundläggande säkerhetsinfrastruktur för dataförflyttning i både hybrid- och molnscenarier.
Prissättning
Prissättningen för den här lösningen baseras på:
- De Azure-tjänster som används.
- Datavolym.
- Kapacitets- och dataflödeskrav.
- ETL-/ELT-transformationer som behövs.
- Beräkningsresurser som behövs för att utföra maskininlärningsuppgifter.
Du kan beräkna kostnader med hjälp av priskalkylatorn för Azure.
Nästa steg
Azure-tjänster
- Vad är Azure Data Factory?
- Vad är Azure Databricks?
- Spåra ML med MLflow och Azure Machine Learning
- Introduktion till Azure Data Lake Storage Gen2
- Vad är Azure Machine Learning?
- Vad är automatiserad maskininlärning (AutoML)?
- Vad är Azure Synapse Analytics?
- Utnyttja kraften hos förutsägelseanalys i Azure Synapse med maskininlärning och AI
- Arkitektur för avancerad analys
- Vad är Power BI?
- Vad är Azure Active Directory?
- Om Azure Key Vault
- Vad är Microsoft Defender for Cloud?
Lösningar för hälso- och sjukvård
- Microsoft Cloud för hälsovård
- Azure i sjukvården
- Azure API för FHIR
- IoMT FHIR-anslutning för Azure
- Fjärrövervakning av patienter med Internet of Medical Things (IoMT)
Relaterade resurser
- Batchbedömning av Python-modeller i Azure
- Citizen AI med Power Platform
- Distribuera AI ML databehandling lokalt och på gränsen
- MLOps för Python-modeller med Azure Machine Learning
- Datavetenskap och maskininlärning med Azure Databricks
- Förutsäg vistelselängd och patientflöde
- Population Health Management för sjukvårdssektorn
