I den här artikeln presenteras en lösning för genomisk analys och rapportering. Processerna och resultaten är lämpliga för precisionsscenarier för medicin eller områden inom sjukvård som använder genetisk profilering. Mer specifikt tillhandahåller lösningen ett arbetsflöde för clinical genomics som automatiserar dessa uppgifter:
- Ta data från en sekvenserare
- Flytta data via sekundär analys
- Tillhandahålla resultat som läkare kan använda
Genomiks växande skalning, komplexitet och säkerhetskrav gör det till en utmärkt kandidat för att flytta till molnet. Lösningen använder därför Azure-molntjänster utöver verktyg med öppen källkod. Den här metoden utnyttjar funktionerna för säkerhet, prestanda och skalbarhet i Azure-molnet:
- Forskare planerar att sekvensera hundratusentals genom under de kommande åren. Uppgiften att lagra och analysera dessa data kräver betydande beräkningskraft och lagringskapacitet. Med datacenter runtom i världen som tillhandahåller dessa resurser kan Azure uppfylla dessa krav.
- Azure är certifierat för större globala standarder för säkerhet och sekretess, till exempel ISO 27001.
- Azure uppfyller de säkerhets- och ursprungsstandarder som HIPAA (Health Insurance Portability and Accountability Act) fastställer för personlig hälsoinformation.
En viktig komponent i lösningen är Microsoft Genomics. Den här tjänsten erbjuder en optimerad implementering av sekundär analys som kan bearbeta ett 30x genom på några timmar. Standardtekniker kan ta flera dagar.
Potentiella användningsfall
Den här lösningen gäller för många områden:
- Riskbedömning av patienter för cancer
- Identifiera patienter med genetiska markörer som förinför dem för sjukdom
- Generera patientkohorter för studier
Arkitektur
Diagrammet innehåller två rutor. Den första, till vänster, har etiketten Azure Data Factory för orkestrering. Den andra rutan har etiketten Clinician views (Klinikers vyer). Den första rutan innehåller flera mindre rutor som representerar data eller olika Azure-komponenter. Pilarna ansluter rutorna och numrerade etiketter på pilarna motsvarar de numrerade stegen i dokumenttexten. Två pilar flödar mellan rutorna, som slutar i rutan Clinician views (Läkare). En pil pekar på en läkare-ikon. Den andra pekar på en Power BI ikon.
Ladda ned en Visio-fil med den här arkitekturen.
Azure Data Factory orkestrering av arbetsflödet:
Data Factory överför den första exempelfilen till Azure Blob Storage. Filen är i FASTQ-format.
Microsoft Genomics kör sekundär analys på filen.
Microsoft Genomics lagrar utdata i Blob Storage i något av följande format:
- VARIANT-anropsformat (VCF)
- Genomisk VCF (GVCF)
Jupyter Notebook kommenterar utdatafilen. Anteckningsboken körs på Azure Databricks.
Azure Data Lake Storage lagrar den kommenterade filen.
Jupyter Notebook sammanfogar filen med andra datauppsättningar och analyserar data. Anteckningsboken körs på Azure Databricks.
Data Lake Storage lagrar bearbetade data.
Azure Healthcares API:er paketerade data i ett paket FHIR (elektronisk standard för utbyte av vårdinformation) (FHIR). De kliniska datan förs sedan in i patientens elektroniska hälsopost (EHR).
Läkare visar resultaten på Power BI instrumentpaneler.
Komponenter
Lösningen använder följande komponenter:
Microsoft Genomics
Microsoft Genomics en effektiv och korrekt Genomics-pipeline som implementerar branschens bästa praxis. Dess högpresterande motor är optimerad för dessa uppgifter:
- Läsa stora filer med genomdata
- Bearbeta dem effektivt över många kärnor
- Sortera och filtrera resultaten
- Skriva resultaten till utdatafiler
För att maximera dataflödet använder den här motorn en Burrows-Wheeler Aligner (BWA) och en GATK (Genome Analysis Toolkit) HaplotypeCaller-variantanropare. Motorn använder också flera andra komponenter som utgör standardgenomics-pipelines. Några exempel är dubblettmärkning, omcalibrering av baskvalitetspoäng och indexering. Om några timmar kan motorn bearbeta ett enda genomexempel på en enda server med flera kärnor. Bearbetningen börjar med råläsningar. Den genererar justerade läsningar och variant-anrop.
Internt hanterar Microsoft Genomics dessa aspekter av processen:
- Distribuera batchar av genom mellan pooler med datorer i molnet
- Underhålla en kö med inkommande begäranden
- Distribuera begäranden till servrar som kör Genomics-motorn
- Övervaka servrars prestanda och förlopp
- Utvärdera resultaten
- Säkerställa att bearbetningen körs tillförlitligt och säkert i stor skala bakom ett säkert webbtjänst-API
Du kan enkelt använda Microsoft Genomics i tertiär analys och maskininlärningstjänster. Och eftersom Microsoft Genomics är en molntjänst behöver du inte hantera eller uppdatera maskinvara eller programvara.
Andra komponenter
Data Factory är en integreringstjänst som fungerar med data från olika datalager. Du kan använda den här fullständigt hanterade, serverlösa plattformen för att dirigera och automatisera arbetsflöden. Mer specifikt Data Factory pipelines data till Azure i den här lösningen. En sekvens med pipelines utlöser sedan varje steg i arbetsflödet.
Blob Storage erbjuder optimerad molnobjektlagring för stora mängder ostrukturerade data. I det här scenariot tillhandahåller Blob Storage den första landningszonen för FASTQ-filen. Den här tjänsten fungerar också som utdatamål för VCF- och GVCF-filer som Microsoft Genomics genererar. Nivåindelade funktioner i Blob Storage ett sätt att arkivera FASTQ-filer i prisvärd långsiktig lagring efter bearbetning.
Azure Databricks är en plattform för dataanalys. Dess fullständigt hanterade Spark-kluster bearbetar stora dataströmmar från olika källor. I den här Azure Databricks du de beräkningsresurser Jupyter Notebook behöver kommentera, sammanfoga och analysera data.
Data Lake Storage är en skalbar och säker datasjö för högpresterande analysarbetsbelastningar. Den här tjänsten kan hantera flera petabyte med information samtidigt som dataflödet på hundratals gigabit upprätthålls. Data kan vara strukturerade, halvstrukturerade eller ostrukturerade. Den kommer vanligtvis från flera heterogena källor. I den här arkitekturen tillhandahåller Data Lake Storage den slutliga landningszonen för kommenterade filer och sammanfogade datauppsättningar. Det ger också underordnade system åtkomst till de slutliga utdata.
Power BI är en samling programvarutjänster och appar som visar analysinformation. Du kan använda Power BI för att ansluta och visa orelaterade datakällor. I den här lösningen kan du fylla Power BI instrumentpaneler med resultatet. Läkare kan sedan skapa visuella objekt från den slutliga datamängden.
Azure Healthcares API:er är ett hanterat, standardbaserat, kompatibelt gränssnitt för åtkomst till data om kliniska hälsotillstånd. Du kan använda referensarkitekturer och implementeringar i hälsoarkitekturer när du använder Api:er för Azure Healthcare. I det här scenariot skickar Azure Healthcare-API:er ett FHIR-paket till VAR med de kliniska data.
Överväganden
Följande överväganden överensstämmer med Microsoft Azure Well-Architected Framework och gäller för den här lösningen:
Överväganden för tillgänglighet
Serviceavtalen (SLA) för de flesta Azure-komponenter garanterar tillgänglighet:
- Minst 99,9 procent Data Factory pipelines är garanterade att köras .
- Serviceavtalet Azure Databricks 99,95 procent tillgänglighet.
- Microsoft Genomics ett serviceavtal med 99,99 procent tillgänglighet för arbetsflödesbegäranden.
- Blob Storage och Data Lake Storage ingår i Azure Storage, som erbjuder tillgänglighet via redundans.
Skalbarhetsöverväganden
De flesta Azure-tjänster är skalbara enligt design:
- Data Factory transformerar data i stor skala.
- Klustren i Azure Databricks ändra storlek efter behov.
- Information om hur du optimerar skalbarheten i Blob Storage finns i Checklista för prestanda och skalbarhet för Blob Storage.
- Data Lake Storage kan hantera exabyte med data.
- Microsoft Genomics kör arbetsbelastningar i exabyteskala.
Säkerhetsöverväganden
Teknikerna i den här lösningen uppfyller de flesta företags säkerhetskrav.
Riktlinjer
På grund av medicinska datas känsliga natur bör du upprätta styrning och säkerhet genom att följa riktlinjerna i dessa dokument:
- Säkerhet i Microsoft Cloud Adoption Framework för Azure
- Praktisk guide för att utforma säkra hälsolösningar med hjälp av Microsoft Azure
- Landningszoner i företagsskala
Regelefterlevnad
I dessa dokument finns information om hur du följer HIPAA- och HITECH-reglerna (Health Information Technology for Economic and Clinical Health):
Komponenterna i den här lösningen omfattas av HIPAA enligt Microsoft Azure för efterlevnad. Om du ersätter andra komponenter verifierar du dem först mot listan i dokumentets bilaga.
Allmänna säkerhetsfunktioner
Flera komponenter skyddar även data på andra sätt:
Azure Databricks många verktyg för att skydda nätverksinfrastrukturen och data. Exempel är åtkomstkontrolllistor,hemligheteroch ingen offentlig IP-adress (NPIP).
Blob Storage stöder kryptering av lagringstjänst (SSE),som automatiskt krypterar data innan de lagras. Det finns också många andra sätt att skydda data och nätverk.
Data Lake Storage ger åtkomstkontroll. Dess modell stöder följande typer av kontroller:
- Rollbaserad åtkomstkontroll (RBAC) i Azure
- POSIX-åtkomstkontrollistor (Portable Operating System Interface)
Prissättning
Med de flesta Azure-tjänster kan du minska kostnaderna genom att bara betala för det du använder:
- Med Data Factory bestämmer din aktivitetskörningsvolym kostnaden.
- Azure Databricks erbjuder många nivåer, arbetsbelastningar och prisplaner som hjälper dig att minimera kostnaderna.
- Blob Storage kostnader beror på alternativ för dataredundans och volym.
- Med Data Lake Storage beror prissättningen på många faktorer: namnområdestyp, lagringskapacitet och val av nivå.
- För Microsoft Genomics beror avgiften på antalet gigabases som varje arbetsflöde bearbetar.
Nästa steg
- Microsoft Genomics: Vanliga frågor
- Snabbstartskit för Genomics
- Burrows-Wheeler Aligner
- Verktyg för genomanalys
Relaterade resurser
Fullständigt distribuerade arkitekturer:
Data Factory lösningar
- Automatiserad Enterprise BI
- Hybrid-ETL med Azure Data Factory
- Replikera och synkronisera stordatordata i Azure
Analyslösningar
- Datalagerhantering och analys
- Geospatial databearbetning och analys
- Strömbearbetning med Azure Databricks