Ez a cikk egy genomelemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek.
Architektúra
A diagram két mezőt tartalmaz. Az első a bal oldalon a vezényléshez Azure Data Factory címkével rendelkezik. A második mezőben a klinikus nézetek felirat látható. Az első mező több kisebb mezőt tartalmaz, amelyek adatokat vagy különböző Azure-összetevőket jelölnek. A nyilak összekötik a mezőket, és a nyilakon lévő számozott címkék megfelelnek a dokumentum szövegében szereplő számozott lépéseknek. Két nyíl áramlik a dobozok között, a klinikus nézetek mezővel végződve. Az egyik nyíl egy klinikus ikonra mutat. A másik egy Power BI ikonra mutat.
Töltse le az architektúra Visio-fájlját.
Munkafolyamat
Azure Data Factory a munkafolyamat vezénylése:
A Data Factory átviszi a kezdeti mintafájlt Azure Blob Storage. A fájl FASTQ formátumú.
A Microsoft Genomics másodlagos elemzést futtat a fájlon.
A Microsoft Genomics a kimenetet blob Storage tárolja az alábbi formátumok egyikében:
- Variant-hívásformátum (VCF)
- Genomikus VCF (GVCF)
Jupyter Notebook széljegyzetet fűz a kimeneti fájlhoz. A jegyzetfüzet az Azure Databricksben fut.
Azure Data Lake Storage tárolja a jegyzettel ellátott fájlt.
Jupyter Notebook egyesíti a fájlt más adatkészletekkel, és elemzi az adatokat. A jegyzetfüzet az Azure Databricksben fut.
Data Lake Storage tárolja a feldolgozott adatokat.
Az Azure Healthcare API-k az adatokat egy Fast Healthcare Interoperability Resources (FHIR) csomagba csomagolják. A klinikai adatok ezután bekerülnek a beteg elektronikus egészségügyi nyilvántartásába (EHR).
A klinikusok Power BI irányítópultokon tekintik meg az eredményeket.
Összetevők
A megoldás a következő összetevőket használja:
Microsoft Genomics
A Microsoft Genomics hatékony és pontos genomikai folyamatot kínál, amely megvalósítja az iparág ajánlott eljárásait. A nagy teljesítményű motorja az alábbi feladatokra van optimalizálva:
- Nagyméretű genomikai adatokból álló fájlok olvasása
- Hatékony feldolgozásuk több magon keresztül
- Az eredmények rendezése és szűrése
- Az eredmények írása kimeneti fájlokba
Az átviteli sebesség maximalizálása érdekében ez a motor egy Burrows-Wheeler Alignert (BWA) és egy Genome Analysis Toolkit (GATK) HaplotypeCaller változathívót működtet. A motor számos más összetevőt is használ, amelyek szabványos genomikai folyamatokat alkotnak. Ilyen például az ismétlődő megjelölés, az alapminőségi pontszám újraszámítása és az indexelés. Néhány óra múlva a motor egyetlen genommintát képes feldolgozni egyetlen többmagos kiszolgálón. A feldolgozás nyers olvasásokkal kezdődik. Összehangolt olvasási és variánshívásokat hoz létre.
Belsőleg a Microsoft Genomics-vezérlő kezeli a folyamat alábbi aspektusait:
- Genomkötegek elosztása a felhőbeli gépkészletek között
- Bejövő kérések várólistájának karbantartása
- A kérések terjesztése a genomics motort futtató kiszolgálókra
- A kiszolgálók teljesítményének és előrehaladásának monitorozása
- Az eredmények kiértékelése
- Annak biztosítása, hogy a feldolgozás megbízhatóan és biztonságosan fusson nagy méretekben, egy biztonságos webszolgáltatási API mögött
A Microsoft Genomics eredményeit egyszerűen használhatja harmadlagos elemzési és gépi tanulási szolgáltatásokban. Mivel a Microsoft Genomics egy felhőszolgáltatás, nem kell hardvert vagy szoftvert kezelnie vagy frissítenie.
Egyéb összetevők
A Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik. Ezzel a teljes körűen felügyelt, kiszolgáló nélküli platformmal vezényelheti és automatizálhatja a munkafolyamatokat. Ebben a megoldásban a Data Factory-folyamatok adatokat továbbítanak az Azure-ba. Ezután folyamatsorozat aktiválja a munkafolyamat minden lépését.
A Blob Storage nagy mennyiségű strukturálatlan adathoz kínál optimalizált felhőalapú objektumtárolást. Ebben a forgatókönyvben a Blob Storage biztosítja a FASTQ-fájl kezdeti célzónát. Ez a szolgáltatás a Microsoft Genomics által létrehozott VCF- és GVCF-fájlok kimeneti céljaként is működik. A Blob Storage rétegzési funkciója lehetővé teszi a FASTQ-fájlok archiválását olcsó, hosszú távú tárolókban a feldolgozás után.
Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök különböző forrásokból származó nagy adatstreameket dolgoznak fel. Ebben a megoldásban az Azure Databricks biztosítja azokat a számítási erőforrásokat, amelyek Jupyter Notebook az adatok megjegyzésekkel való ellátásához, egyesítéséhez és elemzéséhez szükségesek.
Data Lake Storage egy méretezhető és biztonságos adattó a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok strukturáltak, részben strukturáltak vagy strukturálatlanok lehetnek. Általában több heterogén forrásból származik. Ebben az architektúrában Data Lake Storage biztosítja a jegyzetekkel ellátott fájlok és az egyesített adathalmazok végső célzónát. Az alsóbb rétegbeli rendszerek számára is hozzáférést biztosít a végső kimenethez.
A Power BI olyan szoftverszolgáltatások és alkalmazások gyűjteménye, amelyek elemzési információkat jelenítenek meg. A Power BI használható nem kapcsolódó adatforrások csatlakoztatására és megjelenítésére. Ebben a megoldásban Power BI irányítópultokat is feltöltheti az eredményekkel. A klinikusok ezután vizualizációkat hozhatnak létre a végső adathalmazból.
Az Azure Healthcare API-k egy felügyelt, szabványokon alapuló, megfelelő felület a klinikai egészségügyi adatokhoz való hozzáféréshez. Ebben a forgatókönyvben az Azure Healthcare API-k átadnak egy FHIR-csomagot az EHR-nek a klinikai adatokkal együtt.
Forgatókönyv részletei
Ez a cikk egy genomelemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek. A megoldás egy klinikai genomikai munkafolyamatot biztosít, amely automatizálja ezeket a feladatokat:
- Adatok felvétele egy szekvenciátorból
- Adatok áthelyezése másodlagos elemzésen keresztül
- Olyan eredmények biztosítása, amelyeket a klinikusok felhasználhatnak
A Genomics egyre növekvő mérete, összetettsége és biztonsági követelményei ideális választássá teszik a felhőbe való áttéréshez. Következésképpen a megoldás nyílt forráskódú eszközök mellett Azure-felhőszolgáltatásokat is használ. Ez a megközelítés kihasználja az Azure-felhő biztonsági, teljesítménybeli és méretezhetőségi funkcióit:
- A tudósok több százezer genom szekvenálását tervezik a következő években. Az adatok tárolásához és elemzéséhez jelentős számítási teljesítményre és tárolási kapacitásra van szükség. A világ azon adatközpontjai, amelyek ezeket az erőforrásokat biztosítják, az Azure képes megfelelni ezeknek az igényeknek.
- Az Azure tanúsítvánnyal rendelkezik a főbb globális biztonsági és adatvédelmi szabványokhoz, például az ISO 27001-hez.
- Az Azure megfelel az egészségbiztosítási hordozhatóságról és elszámoltathatóságról szóló törvény (HIPAA) által a személyes egészségügyi adatokra vonatkozó biztonsági és származási előírásoknak.
A megoldás egyik fő összetevője a Microsoft Genomics. Ez a szolgáltatás egy optimalizált másodlagos elemzési implementációt kínál, amely néhány óra alatt képes feldolgozni egy 30x genomot . A standard technológiák napokig is eltarthatnak.
Lehetséges használati esetek
Ez a megoldás ideális az egészségügyi ágazat számára. Ez számos területre vonatkozik:
- Kockázat pontozása betegek rák
- A betegségre hajlamos genetikai jelölőkkel rendelkező betegek azonosítása
- Betegek kohorszainak előállítása vizsgálatokhoz
Megfontolandó szempontok
A következő szempontok összhangban vannak a Microsoft Azure Well-Architected-keretrendszerrel, és vonatkoznak erre a megoldásra:
Rendelkezésre állási szempontok
A legtöbb Azure-összetevő szolgáltatói szerződései (SLA-k) garantálják a rendelkezésre állást:
- A Data Factory-folyamatok legalább 99,9%-a garantáltan sikeresen fut.
- Az Azure Databricks SLA 99,95%-os rendelkezésre állást garantál.
- A Microsoft Genomics 99,99%-os rendelkezésre állási SLA-t kínál a munkafolyamat-kérelmekhez.
- A blob-Storage és a Data Lake Storage az Azure Storage részét képezik, amely redundancia révén biztosítja a rendelkezésre állást.
Méretezési szempontok
A legtöbb Azure-szolgáltatás tervezés szerint méretezhető:
- A Data Factory nagy léptékben alakítja át az adatokat.
- Az Azure Databricks-fürtök szükség szerint átméretezhetők.
- A Blob Storage skálázhatóságának optimalizálásával kapcsolatos információkért tekintse meg a Blob Storage teljesítmény- és méretezhetőségi ellenőrzőlistáját.
- Data Lake Storage képes exabájtnyi adat kezelésére.
- A Microsoft Genomics exabájtos számítási feladatokat futtat.
Biztonsági szempontok
A megoldás technológiái megfelelnek a legtöbb vállalat biztonsági követelményeinek.
Irányelvek
Az orvosi adatok bizalmas jellege miatt a következő dokumentumokban szereplő irányelvek szerint alakítsa ki a szabályozást és a biztonságot:
- Biztonság az Azure-hoz készült Microsoft felhőadaptálási keretrendszer-ben
- Gyakorlati útmutató biztonságos egészségügyi megoldások tervezéséhez az Microsoft Azure használatával
- Nagyvállalati szintű kezdőzónák
Előírásoknak való megfelelés
A HIPAA és a Gazdasági és Klinikai Egészségügyi Egészségügyi Információs Technológia (HITECH) törvénynek való megfeleléssel kapcsolatos információkért tekintse meg ezeket a dokumentumokat:
A megoldás összetevői a HIPAA hatókörébe tartoznak Microsoft Azure megfelelőségi ajánlatoknak megfelelően. Ha bármilyen más összetevőt helyettesít, először ellenőrizze őket a dokumentum függelékében lévő listával.
Általános biztonsági funkciók
Számos összetevő más módon is védi az adatokat:
Az Azure Databricks számos eszközt biztosít a hálózati infrastruktúra és az adatok biztonságossá tételéhez. Ilyenek például a hozzáférés-vezérlési listák, a titkos kódok és a nyilvános IP-cím (NPIP) nélkül.
A Blob Storage támogatja a tárolási szolgáltatás titkosítását (SSE), amely automatikusan titkosítja az adatokat a tárolás előtt. Emellett számos más módszert is kínál az adatok és hálózatok védelmére.
Data Lake Storage hozzáférés-vezérlést biztosít. A modell az alábbi vezérlőtípusokat támogatja:
- Azure-alapú hozzáférés-vezérlés (RBAC)
- Portable Operating System Interface (POSIX) hozzáférés-vezérlési listák (ACL-ek)
Díjszabás
A legtöbb Azure-szolgáltatással csökkentheti a költségeket, ha csak azért fizet, amit használ:
- A Data Factoryvel a tevékenységfuttatási kötet határozza meg a költségeket.
- Az Azure Databricks számos szintet, számítási feladatot és tarifacsomagot kínál a költségek minimalizálása érdekében.
- A blobok Storage költségei az adatredundancia beállításaitól és a kötettől függenek.
- A Data Lake Storage esetében a díjszabás számos tényezőtől függ: a névtér típusától, a tárolókapacitástól és a szint kiválasztásától.
- A Microsoft Genomics esetében a díj az egyes munkafolyamatok által feldolgozott gigabázisok számától függ.
Következő lépések
- Microsoft Genomics: Gyakori kérdések
- Genomics gyorsindítási kezdőkészlet
- Burrows-Wheeler Aligner
- Genome Analysis Toolkit
Kapcsolódó források (lehet, hogy a cikkek angol nyelvűek)
Teljes mértékben üzembe helyezhető architektúrák:
Data Factory-megoldások
- Automatizált nagyvállalati BI
- Hibrid ETL az Azure Data Factoryval
- Nagyszámítógépek adatainak replikálás és szinkronizálása az Azure-ban
Elemzési megoldások
- Adattárházak és elemzések
- Térinformatikai adatfeldolgozás és -elemzés
- Streamek feldolgozása az Azure Databricksszel