Dit artikel biedt een oplossing voor genomic-analyse en -rapportage. De processen en resultaten zijn geschikt voor scenario's met precisie-geneesmiddelen of medische gebieden die gebruikmaken van genetische profilering. De oplossing biedt met name een klinische genomics-werkstroom die deze taken automatiseert:
- Gegevens van een sequencer nemen
- De gegevens verplaatsen via een secundaire analyse
- Resultaten geven die artsen kunnen gebruiken
Door de groeiende schaal, complexiteit en beveiligingsvereisten van genomics is het een ideale kandidaat voor een overstap naar de cloud. Daarom maakt de oplossing naast opensource-hulpprogramma's ook gebruik van Azure-cloudservices. Deze aanpak maakt gebruik van de beveiligings-, prestatie- en schaalbaarheidsfuncties van de Azure-cloud:
- Wetenschappers zijn van plan om de komende jaren honderdduizenden genooms te sequereren. De taak van het opslaan en analyseren van deze gegevens vereist aanzienlijke rekenkracht en opslagcapaciteit. Met datacenters over de hele wereld die deze resources bieden, kan Azure aan deze eisen voldoen.
- Azure is gecertificeerd voor belangrijke wereldwijde beveiligings- en privacystandaarden, zoals ISO 27001.
- Azure voldoet aan de beveiligings- en herkomststandaarden die de HIPAA (Health Insurance Portability and Accountability Act) vaststelt voor persoonlijke gezondheidsinformatie.
Een belangrijk onderdeel van de oplossing is Microsoft Genomics. Deze service biedt een geoptimaliseerde implementatie van een secundaire analyse die een 30x-genoom in een paar uur kan verwerken. Standaardtechnologieën kunnen dagen duren.
Potentiële gebruikscases
Deze oplossing is van toepassing op veel gebieden:
- Risicoscore voor patiënten op kanker
- Patiënten identificeren met genetische markeringen die hen predisposeren naar ziekte
- Patiëntcohorten genereren voor onderzoek
Architectuur
Het diagram bevat twee vakken. De eerste, aan de linkerkant, heeft het label Azure Data Factory voor orchestration. Het tweede vak heeft het label Artsenweergaven. Het eerste vak bevat verschillende kleinere vakken die gegevens of verschillende Azure-onderdelen vertegenwoordigen. Pijlen verbinden de vakken en genummerde labels op de pijlen komen overeen met de genummerde stappen in de documenttekst. Er worden twee pijlen tussen de vakken gestroomd, eindigend in het vak Artsenweergaven. Eén pijl wijst naar een pictogram van een arts. De andere wijst naar een Power BI pictogram.
Een Visio-bestand van deze architectuur downloaden.
Azure Data Factory de werkstroom:
Data Factory het eerste voorbeeldbestand over naar Azure Blob Storage. Het bestand heeft de FASTQ-indeling.
Microsoft Genomics voert secundaire analyse uit op het bestand.
Microsoft Genomics slaat de uitvoer op in Blob Storage in een van de volgende indelingen:
- Variant call format (VCF)
- Genomic VCF (GVCF)
Jupyter Notebook maakt aantekeningen voor het uitvoerbestand. Het notebook wordt uitgevoerd op Azure Databricks.
In Azure Data Lake Storage het bestand met aantekeningen opgeslagen.
Jupyter Notebook wordt het bestand samengevoegd met andere gegevenssets en worden de gegevens geanalyseerd. Het notebook wordt uitgevoerd op Azure Databricks.
Data Lake Storage de verwerkte gegevens op.
Azure Healthcare-API's verpakt de gegevens in een Fast Healthcare Interoperability Resources (FHIR)-bundel. De klinische gegevens worden vervolgens in het EHR (Electronic Health Record) van de patiënt beland.
Artsen bekijken de resultaten in Power BI dashboards.
Onderdelen
De oplossing maakt gebruik van de volgende onderdelen:
Microsoft Genomics
Microsoft Genomics een efficiënte en nauwkeurige genomics-pijplijn die de best practices van de branche implementeert. De engine voor hoge prestaties is geoptimaliseerd voor deze taken:
- Grote bestanden met genomic-gegevens lezen
- Ze efficiënt verwerken in veel kernen
- De resultaten sorteren en filteren
- De resultaten naar uitvoerbestanden schrijven
Om de doorvoer te maximaliseren, gebruikt deze engine een Burrows-Wheeler Aligner (BWA) en een Genome Analysis Toolkit (GATK) HaplotypeCaller-variantaanroeper. De engine maakt ook gebruik van verschillende andere onderdelen die standaard genomics-pijplijnen maken. Voorbeelden zijn dubbele markeringen, hercalibratie van de basiskwaliteitsscore en indexering. In een paar uur kan de engine één genomic-voorbeeld verwerken op één server met meerdere kernen. De verwerking begint met onbewerkte leesbewerkingen. Het produceert uitgelijnde lees- en variant-aanroepen.
Intern beheert de Microsoft Genomics de volgende aspecten van het proces:
- Genoombatchs distribueren over pools van machines in de cloud
- Een wachtrij met binnenkomende aanvragen onderhouden
- De aanvragen distribueren naar servers waarop de genomics-engine wordt uitgevoerd
- De prestaties en voortgang van de servers bewaken
- De resultaten evalueren
- Ervoor zorgen dat de verwerking betrouwbaar en veilig op schaal wordt uitgevoerd, achter een beveiligde webservice-API
U kunt eenvoudig Microsoft Genomics resultaten in tertiaire analyse en machine learning gebruiken. En omdat Microsoft Genomics cloudservice is, hoeft u geen hardware of software te beheren of bij te werken.
Andere onderdelen
Data Factory is een integratieservice die werkt met gegevens uit verschillende gegevensopslag. U kunt dit volledig beheerde, serverloze platform gebruiken om werkstromen te beheren en te automatiseren. Met name Data Factory pijplijnen gegevens naar Azure overdragen in deze oplossing. Een reeks pijplijnen activeert vervolgens elke stap van de werkstroom.
Blob Storage biedt geoptimaliseerde cloudobjectopslag voor grote hoeveelheden ongestructureerde gegevens. In dit scenario biedt Blob Storage de eerste landingszone voor het FASTQ-bestand. Deze service fungeert ook als het uitvoerdoel voor de VCF- en GVCF-bestanden die Microsoft Genomics gegenereerd. Laagfunctionaliteit in Blob Storage een manier om FASTQ-bestanden te archiveren in goedkope langetermijnopslag na verwerking.
Azure Databricks is een platform voor gegevensanalyse. De volledig beheerde Spark-clusters verwerken grote gegevensstromen uit verschillende bronnen. In deze oplossing biedt Azure Databricks de rekenbronnen die Jupyter Notebook nodig hebben om aantekeningen te maken, samen te voegen en de gegevens te analyseren.
Data Lake Storage is een schaalbare en veilige data lake voor analyseworkloads met hoge prestaties. Deze service kan meerdere petabytes aan informatie beheren en tegelijkertijd honderden gigabits aan doorvoer ondersteunen. De gegevens kunnen gestructureerd, semi-gestructureerd of ongestructureerd zijn. Het is meestal afkomstig uit meerdere, heterogene bronnen. In deze architectuur biedt Data Lake Storage de uiteindelijke landingszone voor de bestanden met aantekeningen en de samengevoegde gegevenssets. Het biedt downstreamsystemen ook toegang tot de uiteindelijke uitvoer.
Power BI is een verzameling softwareservices en apps die analysegegevens weergeven. U kunt deze Power BI verbinding te maken en niet-gerelateerde gegevensbronnen weer te geven. In deze oplossing kunt u de Power BI dashboards vullen met de resultaten. Artsen kunnen vervolgens visuals maken op basis van de uiteindelijke gegevensset.
Azure Healthcare-API's is een beheerde, op standaarden gebaseerde, compatibele interface voor toegang tot klinische gezondheidsgegevens. U kunt de referentiearchitecti en implementaties in Health Architectures gebruiken wanneer u Azure Healthcare-API's gebruikt. In dit scenario geeft Azure Healthcare-API's een FHIR-bundel door aan het EHR met de klinische gegevens.
Overwegingen
De volgende overwegingen zijn afgestemd op het Microsoft Azure Well-Architected Framework en zijn van toepassing op deze oplossing:
Beschikbaarheidsoverwegingen
De serviceovereenkomsten (SLA's) van de meeste Azure-onderdelen garanderen beschikbaarheid:
- Ten minste 99,9 procent van Data Factory pijplijnen wordt gegarandeerd met succes uitgevoerd.
- De Azure Databricks-SLA garandeert een beschikbaarheid van 99,95 procent.
- Microsoft Genomics biedt een SLA voor een beschikbaarheid van 99,99 procent voor werkstroomaanvragen.
- Blob Storage en Data Lake Storage maken deel uit van Azure Storage, die beschikbaarheid biedt via redundantie.
Schaalbaarheidsoverwegingen
De meeste Azure-services zijn qua ontwerp schaalbaar:
- Data Factory transformeert gegevens op schaal.
- De clusters in Azure Databricks naar behoefte de ize.
- Zie Prestatie- en schaalbaarheidscontrolelijst voor Blob Storage Storage voor meer informatie over het optimaliseren van de schaalbaarheid in [Blob Storage.]
- Data Lake Storage kan exabytes aan gegevens beheren.
- Microsoft Genomics voert workloads op exabyte-schaal uit.
Beveiligingsoverwegingen
De technologieën in deze oplossing voldoen aan de beveiligingsvereisten van de meeste bedrijven.
Richtlijnen
Vanwege de gevoelige aard van medische gegevens kunt u governance en beveiliging tot stand brengen door de richtlijnen in deze documenten te volgen:
- Beveiliging in de Microsoft Cloud Adoption Framework voor Azure
- Praktische handleiding voor het ontwerpen van veilige gezondheidsoplossingen met Microsoft Azure
- Landingszones op enterprise-schaal
Naleving van regelgeving
Zie deze documenten voor informatie over het voldoen aan de HIPAA en de Health Information Technology for Economic and Clinical Health (HITECH) Act:
Onderdelen van deze oplossing vallen binnen het bereik van HIPAA volgens Microsoft Azure complianceaanbiedingen. Als u andere onderdelen vervangt, moet u deze eerst valideren op basis van de lijst in de bijlage van dat document.
Algemene beveiligingsfuncties
Verschillende onderdelen beveiligen gegevens ook op andere manieren:
Azure Databricks biedt veel hulpprogramma's voor het beveiligen van de netwerkinfrastructuur en -gegevens. Voorbeelden hiervan zijn toegangsbeheerlijsten, geheimenen geen openbaar IP-adres (NPIP).
Blob Storage biedt ondersteuning voor Storage Service Encryption (SSE),waarmee gegevens automatisch worden versleuteld voordat ze worden opgeslagen. Het biedt ook veel andere manieren om gegevens en netwerken te beveiligen.
Data Lake Storage biedt toegangsbeheer. Het model ondersteunt deze typen besturingselementen:
- Toegangsbeheer op basis van rollen in Azure (RBAC)
- Portable Operating System Interface (POSIX)-toegangsbeheerlijsten (ACL's)
Prijzen
Met de meeste Azure-services kunt u de kosten verlagen door alleen te betalen voor wat u gebruikt:
- Met Data Factory bepaalt het volume van de activiteitsrun de kosten.
- Azure Databricks biedt veel lagen, workloads en prijsplannen om u te helpen de kosten te minimaliseren.
- Blob Storage kosten zijn afhankelijk van gegevens redundantieopties en volume.
- Met Data Lake Storage zijn de prijzen afhankelijk van veel factoren: uw naamruimtetype, opslagcapaciteit en de keuze van de laag.
- Voor Microsoft Genomics zijn de kosten afhankelijk van het aantal gigabases dat door elke werkstroom wordt verwerkt.
Volgende stappen
- Microsoft Genomics: Veelvoorkomende vragen
- Genomics quickstart starter kit
- Burrows-Wheeler Aligner
- Genome Analysis Toolkit
Gerelateerde resources
Volledig implementeerbare architecturen:
Data Factory oplossingen
- Geautomatiseerde Enterprise BI
- Hybride ETL met Azure Data Factory
- Mainframe-gegevens repliceren en synchroniseren in Azure
Analyse-oplossingen
- Datawarehousing en analyse
- Georuimtelijke gegevensverwerking en -analyse
- Gegevensstromen verwerken met Azure Databricks