Ziekenhuisopnamen voorspellen met traditionele en geautomatiseerde machine learning-technieken

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Deze architectuur biedt een predictive health analytics-framework in de cloud om het pad naar modelontwikkeling, implementatie en verbruik te versnellen.

Architectuur

Dit framework maakt gebruik van systeemeigen Azure Analytics-services voor gegevensopname, opslag, gegevensverwerking, analyse en modelimplementatie.

Diagram demonstrates the architecture of a multi-tier app.

Een Visio-bestand van deze architectuur downloaden.

Workflow

De werkstroom van deze architectuur wordt beschreven in termen van de rollen van de deelnemers.

  1. Data-engineer: Verantwoordelijk voor het opnemen van de gegevens uit de bronsystemen en het organiseren van gegevenspijplijnen om gegevens van de bron naar het doel te verplaatsen. Kan ook verantwoordelijk zijn voor het uitvoeren van gegevenstransformaties op de onbewerkte gegevens.

    • In dit scenario worden historische gegevens over de overname van ziekenhuizen opgeslagen in een on-premises SQL Server-database.
    • De verwachte uitvoer bevat gegevens die zijn opgeslagen in een opslagaccount in de cloud.
  2. Datawetenschapper: Verantwoordelijk voor het uitvoeren van verschillende taken op de gegevens in de doelopslaglaag, om deze voor te bereiden op modelvoorspelling. De taken omvatten opschonen, functie-engineering en gegevensstandaardisatie.

    • Opschoning: de gegevens vooraf verwerken, null-waarden verwijderen, overbodige kolommen verwijderen, enzovoort. In dit scenario kunt u kolommen met te veel ontbrekende waarden verwijderen.
    • Functie-engineering:
      1. Bepaal de invoer die nodig is om de gewenste uitvoer te voorspellen.
      2. Bepaal mogelijke voorspellingen voor leesmittance, misschien door te praten met professionals zoals artsen en verpleegsters. Real-world bewijs kan bijvoorbeeld suggereren dat een diabetische patiënt met overgewicht een voorspeller is voor de leesopname van het ziekenhuis.
    • Gegevensstandaardisatie:
      1. De locatie en variabiliteit van de gegevens karakteriseren om deze voor te bereiden op machine learning-taken. De karakteriseringen moeten gegevensdistributie, scheefheid en kurtosis bevatten.
        • Scheefheid reageert op de vraag: Wat is de vorm van de verdeling?
        • Kurtosis reageert op de vraag: Wat is de meting van dikte of zwaarheid van de verdeling?
      2. Afwijkingen in de gegevensset identificeren en corrigeren: het voorspellingsmodel moet worden uitgevoerd op een gegevensset met een normale verdeling.
      3. De verwachte uitvoer zijn deze trainingsgegevenssets:
        • Een te gebruiken voor het maken van een bevredigend voorspellingsmodel dat gereed is voor implementatie.
        • Een die kan worden gegeven aan een citizen Datawetenschapper voor automatische modelvoorspelling (AutoML).
  3. Burger Datawetenschapper: Verantwoordelijk voor het bouwen van een voorspellingsmodel dat is gebaseerd op trainingsgegevens uit de Datawetenschapper. Een Burger Datawetenschapper maakt waarschijnlijk gebruik van een AutoML-functie waarvoor geen zware coderingsvaardigheden nodig zijn om voorspellingsmodellen te maken.

    De verwachte uitvoer is een bevredigend voorspellingsmodel dat gereed is voor implementatie.

  4. Bi-analist (Business Intelligence): verantwoordelijk voor het uitvoeren van operationele analyses op onbewerkte gegevens die de Data-engineer produceert. De BI-analist kan betrokken zijn bij het maken van relationele gegevens van ongestructureerde gegevens, het schrijven van SQL-scripts en het maken van dashboards.

    De verwachte uitvoer is relationele query's, BI-rapporten en dashboards.

  5. MLOps Engineer: verantwoordelijk voor het in productie brengen van modellen die de Datawetenschapper of Citizen Datawetenschapper biedt.

    De verwachte uitvoer is modellen die gereed zijn voor productie en reproduceerbaar.

Hoewel deze lijst een uitgebreide weergave biedt van alle mogelijke rollen die op elk moment in de werkstroom kunnen communiceren met gezondheidszorggegevens, kunnen de rollen indien nodig worden geconsolideerd of uitgebreid.

Onderdelen

  • Azure Data Factory is een indelingsservice die gegevens van on-premises systemen naar Azure kan verplaatsen om te werken met andere Azure-gegevensservices. Pijplijnen worden gebruikt voor gegevensverplaatsing en toewijzingsgegevensstromen worden gebruikt om verschillende transformatietaken uit te voeren, zoals extraheren, transformeren, laden (ETL) en extraheren, laden, transformeren (ELT). In deze architectuur gebruikt de Data-engineer Data Factory om een pijplijn uit te voeren waarmee historische leesgegevens van een ziekenhuis worden gekopieerd van een on-premises SQL Server naar cloudopslag.
  • Azure Databricks is een op Spark gebaseerde analyse- en machine learning-service die wordt gebruikt voor data engineering en ML-workloads. In deze architectuur gebruikt de Data-engineer Databricks om een Data Factory-pijplijn aan te roepen om een Databricks-notebook uit te voeren. Het notebook is ontwikkeld door de Datawetenschapper voor het afhandelen van de initiële gegevensopschoning en functie-engineeringtaken. De Datawetenschapper kan code schrijven in extra notebooks om de gegevens te standaardiseren en voorspellingsmodellen te bouwen en te implementeren.
  • Azure Data Lake Storage is een zeer schaalbare en veilige opslagservice voor hoogwaardige analyseworkloads. In deze architectuur gebruikt de Data-engineer Data Lakes Storage om de eerste landingszone te definiëren voor de on-premises gegevens die in Azure worden geladen en de laatste landingszone voor de trainingsgegevens. De gegevens, in onbewerkte of definitieve indeling, zijn gereed voor gebruik door verschillende downstreamsystemen.
  • Azure Machine Learning is een samenwerkingsomgeving die wordt gebruikt voor het trainen, implementeren, automatiseren, beheren en bijhouden van machine learning-modellen. Geautomatiseerde machine learning (AutoML) is een mogelijkheid waarmee de tijdrovende en iteratieve taken worden geautomatiseerd die betrokken zijn bij het ontwikkelen van ML-modellen. De Datawetenschapper gebruikt Machine Learning om ML-uitvoeringen van Databricks bij te houden en om AutoML-modellen te maken om te fungeren als een prestatiebenchmark voor de ML-modellen van de Datawetenschapper. Een Citizen Datawetenschapper gebruikt deze service om snel trainingsgegevens uit te voeren via AutoML om modellen te genereren, zonder dat u gedetailleerde kennis van machine learning-algoritmen nodig hebt.
  • Azure Synapse Analytics is een analyseservice waarmee gegevensintegratie, zakelijke datawarehousing en big data-analyses worden gecombineerd. Gebruikers hebben de vrijheid om query's uit te voeren op gegevens met behulp van serverloze of toegewezen resources op schaal. In deze architectuur:
    • De Data-engineer maakt gebruik van Synapse Analytics om eenvoudig relationele tabellen te maken op basis van gegevens in de data lake als basis voor operationele analyses.
    • De Datawetenschapper gebruikt deze om snel query's uit te voeren op gegevens in de Data Lake en voorspellingsmodellen te ontwikkelen met behulp van Spark-notebooks.
    • De BI-analist gebruikt deze om query's uit te voeren met behulp van vertrouwde SQL-syntaxis.
  • Microsoft Power BI is een verzameling softwareservices, apps en connectors die samenwerken om niet-gerelateerde gegevensbronnen om te zetten in coherente, visueel meeslepende en interactieve inzichten. De BI-analist gebruikt Power BI om visualisaties van de gegevens te ontwikkelen, zoals een kaart van de thuislocatie van elke patiënt en het dichtstbijzijnde ziekenhuis.
  • Microsoft Entra ID is een cloudservice voor identiteits- en toegangsbeheer. In deze architectuur wordt de toegang tot de Azure-services beheerd.
  • Azure Key Vault is een cloudservice die een veilig archief biedt voor geheimen, zoals sleutels, wachtwoorden en certificaten. Key Vault bevat de geheimen die Databricks gebruikt om schrijftoegang te krijgen tot de Data Lake.
  • Microsoft Defender voor Cloud is een geïntegreerd beveiligingsbeheersysteem voor infrastructuur dat de beveiligingsstatus van datacenters versterkt en geavanceerde beveiliging tegen bedreigingen biedt voor hybride workloads in de cloud en on-premises. U kunt deze gebruiken om beveiligingsrisico's tegen de Azure-omgeving te bewaken.
  • Azure Kubernetes Service (AKS) is een volledig beheerde Kubernetes-service voor het implementeren en beheren van toepassingen in containers. AKS vereenvoudigt de implementatie van een beheerd AKS-cluster in Azure door de operationele overhead naar Azure te offloaden.

Alternatieven

  • Gegevensverplaatsing: U kunt Databricks gebruiken om gegevens van een on-premises systeem naar de data lake te kopiëren. Databricks is doorgaans geschikt voor gegevens die een streaming- of realtimevereiste hebben, zoals telemetrie van een medisch apparaat.

  • Machine Learning: H2O.ai, DataRobot, Dataiku en andere leveranciers bieden geautomatiseerde machine learning-mogelijkheden die vergelijkbaar zijn met Machine Learning AutoML. U kunt dergelijke platforms gebruiken om Azure Data Engineering- en Machine Learning-activiteiten aan te vullen.

Scenariodetails

Deze architectuur vertegenwoordigt een end-to-end-werkstroom voor het voorspellen van ziekenhuisopnamen voor diabetespatiënten, met behulp van openbaar beschikbare gegevens van 130 Amerikaanse ziekenhuizen gedurende de 10 jaar van 1999 tot 2008. Eerst evalueert het een algoritme voor binaire classificatie voor voorspellende kracht en maakt vervolgens een benchmarks voor voorspellende modellen die worden gegenereerd met behulp van geautomatiseerde machine learning. In situaties waarin geautomatiseerde machine learning niet kan worden gecorrigeerd voor onevenwichtige gegevens, moeten alternatieve technieken worden toegepast. Er wordt een definitief model geselecteerd voor implementatie en verbruik.

Naarmate organisaties in de gezondheidszorg en life science streven naar een meer persoonlijke ervaring voor patiënten en verzorgers, worden ze uitgedaagd om gegevens uit verouderde systemen te gebruiken om voorspellende inzichten te bieden die relevant, nauwkeurig en tijdig zijn. Het verzamelen van gegevens is verder gegaan dan traditionele operationele systemen en elektronische gezondheidsrecords (EHR's), en steeds meer in ongestructureerde vormen van consumentenstatus-apps, fitness-draagbare apparaten en slimme medische apparaten. Organisaties hebben de mogelijkheid nodig om deze gegevens snel te centraliseren en de kracht van data science en machine learning te benutten om relevant te blijven voor hun klanten.

Om deze doelstellingen te bereiken, moeten organisaties in de gezondheidszorg en life science zich richten op:

  • Maak een gegevensbron waaruit predictive analytics realtime waarde kan bieden aan zorgaanbieders, ziekenhuisbeheerders, geneesmiddelenfabrikanten en andere.
  • Plaats hun vakexperts (KMO's) die geen vaardigheden op het gebied van data science en machine learning hebben.
  • Voorzien in data science en machine learning (ML) KMO's van de flexibele hulpprogramma's die ze nodig hebben om efficiënte, nauwkeurige en op schaal voorspellende modellen te maken en te implementeren.

Potentiële gebruikscases

  • Ziekenhuisopnamen voorspellen
  • Diagnose van patiënten versnellen door ml-powered imaging
  • Tekstanalyse uitvoeren op artsnotities
  • Ongunstige gebeurtenissen voorspellen door gegevens van externe patiëntbewaking te analyseren van internet of medical things (IoMT)

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Beschikbaarheid

Het leveren van realtime klinische gegevens en inzichten is essentieel voor veel zorgorganisaties. Hier volgen manieren om downtime te minimaliseren en gegevens veilig te houden:

  • Data Lake Storage wordt altijd drie keer gerepliceerd in de primaire regio, met de optie om lokaal redundante opslag (LRS) of zone-redundante opslag (ZRS) te kiezen.
  • Synapse Analytics biedt herstelpunten voor databases en herstel na noodgevallen.
  • Data Factory-gegevens worden opgeslagen en gerepliceerd in een gekoppelde Azure-regio om bedrijfscontinuïteit en herstel na noodgevallen te garanderen.
  • Databricks biedt richtlijnen voor herstel na noodgevallen voor het data analytics-platform.
  • De Machine Learning-implementatie kan meerdere regio's zijn.

Prestaties

De zelf-hostende Integration Runtime van Data Factory kan worden opgeschaald voor hoge beschikbaarheid en schaalbaarheid.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

Gezondheidszorggegevens omvatten vaak gevoelige beschermde gezondheidsinformatie (PHI) en persoonlijke gegevens. De volgende resources zijn beschikbaar om deze gegevens te beveiligen:

  • Data Lake Storage maakt gebruik van op rollen gebaseerd toegangsbeheer (RBAC) en toegangsbeheerlijsten (ACL's) van Azure om een toegangsbeheermodel te maken.
  • Synapse Analytics biedt een aantal besturingselementen voor toegang en beveiliging op database-, kolom- en rijniveau. Gegevens kunnen ook worden beveiligd op celniveau en via gegevensversleuteling.
  • Data Factory biedt een eenvoudige beveiligingsinfrastructuur voor gegevensverplaatsing in zowel hybride als cloudscenario's.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

Prijzen voor deze oplossing zijn gebaseerd op:

  • De Azure-services die worden gebruikt.
  • Volume aan gegevens.
  • Vereisten voor capaciteit en doorvoer.
  • ETL/ELT-transformaties die nodig zijn.
  • Rekenresources die nodig zijn om machine learning-taken uit te voeren.

U kunt kosten schatten met behulp van de Azure-prijscalculator.

Inzenders

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Belangrijkste auteurs:

Volgende stappen

Azure-services

Oplossingen voor gezondheidszorg