Ziekenhuisopnamen voorspellen met behulp van traditionele en geautomatiseerde machine learning technieken

Machine Learning
Synapse Analytics
Data Factory

Omdat organisaties in de gezondheidszorg en life science ernaar streven om patiënten en patiënten een meer persoonlijke ervaring te bieden, wordt hen de vraag gesteld om gegevens uit verouderde systemen te gebruiken om relevante, nauwkeurige en tijdige voorspellende inzichten te bieden. Het verzamelen van gegevens heeft zich verder verplaatst dan traditionele operationele systemen en elektronische gezondheidsrecords (EHR's), en in toenemende mate in ongestructureerde formulieren van apps voor consumententoestand, fitness wearables en slimme medische apparaten. Organisaties moeten deze gegevens snel kunnen centraliseren en de kracht van data science en machine learning om relevant te blijven voor hun klanten.

Om deze doelstellingen te bereiken, moeten organisaties in de gezondheidszorg en life science zich richten op:

  • Maak een gegevensbron op basis waarvan predictive analytics realtime waarde kunnen bieden aan gezondheidszorgverleners, ziekenhuisbeheerders, fabrikanten van geneesmiddelen en anderen.
  • Plaats hun vakexperts (SME's) die niet beschikken over data science en machine learning vaardigheden.
  • Voorziet data science and machine learning (ML) SME's van de flexibele hulpprogramma's die ze nodig hebben om voorspellende modellen efficiënt, nauwkeurig en op schaal te maken en te implementeren.

Deze architectuur biedt een predictive health analytics-framework in de cloud om het traject van modelontwikkeling, implementatie en verbruik te versnellen.

Potentiële gebruikscases

  • Ziekenhuisopnamen voorspellen
  • Patiëntdiagnose versnellen ML met imaging
  • Tekstanalyse uitvoeren op artsennotities
  • Voorspellen van nadelige gebeurtenissen door externe patiëntbewakingsgegevens van het Internet of Medical Things (IoMT) te analyseren

Architectuur

Deze architectuur vertegenwoordigt een voorbeeld van een end-to-end-werkstroom voor het voorspellen van ziekenhuisopnamen voor diabetes patiënten, met behulp van openbaar beschikbare gegevens van 130 Amerikaanse ziekenhuizen in de 10 jaar van 1999 tot 2008. Eerst wordt een binair classificatiealgoritme geëvalueerd op voorspellende kracht en vervolgens benchmarks voor voorspellende modellen die worden gegenereerd met behulp van geautomatiseerde machine learning. In situaties waarin automatische machine learning niet kunnen worden gecorrigeerd voor onevenwichtige gegevens,moeten alternatieve technieken worden toegepast. Er wordt een uiteindelijk model geselecteerd voor implementatie en verbruik.

Dit framework maakt gebruik van native Azure Analytics-services voor gegevensingestie, opslag, gegevensverwerking, analyse en modelimplementatie.

Architectuur van een app met meerdere lagen.

De architectuur wordt beschreven in termen van de rollen van de deelnemers.

  1. Data-engineer: Verantwoordelijk voor het opnemen van de gegevens uit de bronsystemen en het in delen van gegevenspijplijnen om gegevens van de bron naar het doel te verplaatsen. Kan ook verantwoordelijk zijn voor het uitvoeren van gegevenstransformaties op de onbewerkte gegevens.

    • In dit scenario worden historische ziekenhuisopnamegegevens opgeslagen in een on-premises SQL Server database.
    • De verwachte uitvoer bestaat uit gegevens over het lezen van gegevens die zijn opgeslagen in een cloudopslagaccount.
  2. Datawetenschapper: Verantwoordelijk voor het uitvoeren van verschillende taken op de gegevens in de doelopslaglaag om deze voor te bereiden op modelvoorspelling. De taken omvatten opschonen, feature engineering en gegevensstandaardisering.

    • Opschonen: De gegevens vooraf verwerken, null-waarden verwijderen, onnodige kolommen verwijderen, en meer. In dit scenario kunt u kolommen verwijderen met te veel ontbrekende waarden.
    • Functie-engineering:
      1. Bepaal de invoer die nodig is om de gewenste uitvoer te voorspellen.
      2. Mogelijke voorspellingen voor leesmovernance bepalen, bijvoorbeeld door te praten met professionals zoals artsen en verantwoordelijken. Uit de echte wereld blijkt bijvoorbeeld dat een diabetisch patiënt die wordt opgenomen in een ziekenhuis een voorspeller is voor ziekenhuisopname.
    • Gegevensstandaardisering:
      1. De locatie en variabiliteit van de gegevens karakteriseren om deze voor te bereiden op machine learning taken. De tekens moeten gegevensdistributie, scheefheid en standaardtekens bevatten.
        • Ascheefheid reageert op de vraag: Wat is de vorm van de verdeling?
        • Zij reageert op de vraag: Wat is de meting van de dikte of de zwaarste verdeling?
      2. Afwijkingen in de gegevensset identificeren en corrigeren: het voorspellingsmodel moet worden uitgevoerd op een gegevensset met een normale verdeling.
      3. De verwachte uitvoer zijn deze trainingssets:
        • Een om te gebruiken voor het maken van een toereikend voorspellingsmodel dat gereed is voor implementatie.
        • Een die kan worden gegeven aan een burger-Datawetenschapper voor automatische modelvoorspelling (AutoML).
  3. Burger Datawetenschapper: Verantwoordelijk voor het bouwen van een voorspellingsmodel dat is gebaseerd op trainingsgegevens van de Datawetenschapper. Een citizen Datawetenschapper maakt waarschijnlijk gebruik van een AutoML-functie waarvoor geen zware coderingsvaardigheden nodig zijn om voorspellingsmodellen te maken.

    De verwachte uitvoer is een toereikend voorspellingsmodel dat gereed is voor implementatie.

  4. Business Intelligence-analist (BI) : Verantwoordelijk voor het uitvoeren van operationele analyses op onbewerkte gegevens die de Data-engineer produceert. De BI-analist kan betrokken zijn bij het maken van relationele gegevens van ongestructureerde gegevens, het schrijven SQL scripts en het maken van dashboards.

    De verwachte uitvoer bestaat uit relationele query's, BI-rapporten en dashboards.

  5. MLOps Engineer: Verantwoordelijk voor het produceren van modellen die de Datawetenschapper of Citizen Datawetenschapper biedt.

    De verwachte uitvoer zijn modellen die gereed zijn voor productie en reproduceerbaar zijn.

Hoewel deze lijst een uitgebreid overzicht biedt van alle mogelijke rollen die op elk moment in de werkstroom interactie kunnen hebben met gegevens in de gezondheidszorg, kunnen de rollen naar behoefte worden geconsolideerd of uitgebreid.

Onderdelen

  • Azure Data Factory is een orchestration-service die gegevens van on-premises systemen naar Azure kan verplaatsen om te werken met andere Azure-gegevensservices. Pijplijnen worden gebruikt voor het verplaatsen van gegevens en toewijzingsgegevensstromen worden gebruikt om verschillende transformatietaken uit te voeren, zoals extraheren, transformeren, laden (ETL) en extraheren, laden, transformeren (ELT). In deze architectuur gebruikt de Data-engineer Data Factory om een pijplijn uit te voeren die historische ziekenhuisopnamegegevens kopieert van een on-premises SQL Server naar cloudopslag.
  • Azure Databricks is een op Spark gebaseerde analyse- en machine learning-service die wordt gebruikt voor data engineering en ML workloads. In deze architectuur gebruikt de Data-engineer Databricks om een Data Factory aan te roepen om een Databricks-notebook uit te voeren. Het notebook is ontwikkeld door de Datawetenschapper voor het afhandelen van de eerste taken voor het opschonen van feature engineering gegevens. De Datawetenschapper kan code schrijven in extra notebooks om de gegevens te standaardiseren en voorspellingsmodellen te bouwen en te implementeren.
  • Azure Data Lake Storage is een zeer schaalbare en veilige opslagservice voor analyseworkloads met hoge prestaties. In deze architectuur gebruikt de Data-engineer Data Lakes Storage om de initiële landingszone te definiëren voor de on-premises gegevens die in Azure worden geladen, en de uiteindelijke landingszone voor de trainingsgegevens. De gegevens, in onbewerkte of uiteindelijke indeling, zijn gereed voor gebruik door verschillende downstreamsystemen.
  • Azure Machine Learning is een samenwerkingsomgeving die wordt gebruikt voor het trainen, implementeren, automatiseren, beheren en bijhouden van machine learning modellen. Geautomatiseerde machine learning (AutoML) is een mogelijkheid die de tijdrovende en iteratieve taken automatiseert die betrokken zijn bij het ontwikkelen ML model. De Datawetenschapper gebruikt Machine Learning om ML-uitvoeringen van Databricks bij te houden en om AutoML-modellen te maken om te fungeren als een prestatiebenchmark voor de ML-modellen van de Datawetenschapper. Een Citizen Datawetenschapper gebruikt deze service om snel trainingsgegevens via AutoML uit te voeren om modellen te genereren, zonder dat er gedetailleerde kennis van de algoritmen machine learning nodig is.
  • Azure Synapse Analytics is een analyseservice die gegevensintegratie, enterprise datawarehousing en big data samenwerkt. Gebruikers hebben de vrijheid om op schaal query's uit te voeren op gegevens met behulp van serverloze of toegewezen resources. In deze architectuur:
    • De Data-engineer gebruikt Synapse Analytics om eenvoudig relationele tabellen te maken op basis van gegevens in de data lake de basis voor operationele analyses.
    • De Datawetenschapper gebruikt deze om snel query's uit te voeren op gegevens in de data lake en voorspellingsmodellen te ontwikkelen met behulp van Spark-notebooks.
    • De BI-analist gebruikt deze om query's uit te voeren met behulp van SQL syntaxis.
  • Microsoft Power BI is een verzameling softwareservices, apps en connectors die samenwerken om niet-gerelateerde gegevensbronnen om te zetten in samenhangende, visueel insluitende en interactieve inzichten. De BI-analist Power BI om visualisaties van de gegevens te ontwikkelen, zoals een kaart van de thuislocatie en het dichtstbijzijnde ziekenhuis van elke patiënt.
  • Azure Active Directory (Azure AD) is een identiteits- en toegangsbeheerservice in de cloud. In deze architectuur beheert het de toegang tot de Azure-services.
  • Azure Key Vault is een cloudservice die een beveiligd opslag voor geheimen zoals sleutels, wachtwoorden en certificaten biedt. Key Vault bevat de geheimen die Databricks gebruikt om schrijftoegang te krijgen tot de data lake.
  • Azure Security Center is een geïntegreerd beveiligingsbeheersysteem voor infrastructuur dat de beveiligingsstatus van datacenters verbetert en geavanceerde bedreigingsbeveiliging biedt voor hybride workloads in de cloud en on-premises. U kunt deze gebruiken om beveiligingsrisico's voor de Azure-omgeving te bewaken.
  • Azure Kubernetes Service (AKS) is een volledig beheerde Kubernetes-service voor het implementeren en beheren van toepassingen in containers. AKS vereenvoudigt de implementatie van een beheerd AKS-cluster in Azure door de operationele overhead naar Azure te offloaden.

Alternatieven

  • Gegevens verplaatsen: U kunt Databricks gebruiken om gegevens van een on-premises systeem naar de data lake. Databricks is doorgaans geschikt voor gegevens die een streaming- of realtimevereiste hebben, zoals telemetrie van een medisch apparaat.

  • Machine Learning: H2O.ai, DataFunction, Dataiku en andere leveranciers bieden geautomatiseerde machine learning die vergelijkbaar zijn met Machine Learning AutoML. U kunt dergelijke platformen gebruiken om Azure-data engineering en machine learning aan te vullen.

Overwegingen

Neem de volgende pijlers van het Microsoft Azure Well-Architected Framework op voor een zeer beschikbaar en veilig systeem:

Beschikbaarheid

Het leveren van realtime klinische gegevens en inzichten is essentieel voor veel gezondheidszorgorganisaties. Hier zijn manieren om downtime te minimaliseren en gegevens veilig te houden:

Prestaties

De Data Factory zelf-hostende Integration Runtime kan omhoog worden geschaald voor hoge beschikbaarheid en schaalbaarheid.

Beveiliging

Gegevens in de gezondheidszorg omvatten vaak gevoelige beschermde gezondheidsinformatie (PHI) en persoonlijke gegevens. De volgende resources zijn beschikbaar om deze gegevens te beveiligen:

Prijzen

De prijzen voor deze oplossing zijn gebaseerd op:

  • De Azure-services die worden gebruikt.
  • Hoeveelheid gegevens.
  • Capaciteits- en doorvoervereisten.
  • ETL-/ELT-transformaties die nodig zijn.
  • Rekenbronnen die nodig zijn voor het uitvoeren van machine learning taken.

U kunt de kosten schatten met behulp van de Azure-prijscalculator.

Volgende stappen

Azure-services

Oplossingen voor de gezondheidszorg