Precision medicine pipeline with genomics

Blob Storage
Data Factory
Data Lake Storage
Databricks
Microsoft Genomics

Ez a cikk egy genomelemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek.

Architektúra

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

A diagram két mezőt tartalmaz. Az első a bal oldalon a vezényléshez Azure Data Factory címkével rendelkezik. A második mezőben a klinikus nézetek felirat látható. Az első mező több kisebb mezőt tartalmaz, amelyek adatokat vagy különböző Azure-összetevőket jelölnek. A nyilak összekötik a mezőket, és a nyilakon lévő számozott címkék megfelelnek a dokumentum szövegében szereplő számozott lépéseknek. Két nyíl áramlik a dobozok között, a klinikus nézetek mezővel végződve. Az egyik nyíl egy klinikus ikonra mutat. A másik egy Power BI ikonra mutat.

Töltse le az architektúra Visio-fájlját.

Munkafolyamat

Azure Data Factory a munkafolyamat vezénylése:

  1. A Data Factory átviszi a kezdeti mintafájlt Azure Blob Storage. A fájl FASTQ formátumú.

  2. A Microsoft Genomics másodlagos elemzést futtat a fájlon.

  3. A Microsoft Genomics a kimenetet blob Storage tárolja az alábbi formátumok egyikében:

    • Variant-hívásformátum (VCF)
    • Genomikus VCF (GVCF)
  4. Jupyter Notebook széljegyzetet fűz a kimeneti fájlhoz. A jegyzetfüzet az Azure Databricksben fut.

  5. Azure Data Lake Storage tárolja a jegyzettel ellátott fájlt.

  6. Jupyter Notebook egyesíti a fájlt más adatkészletekkel, és elemzi az adatokat. A jegyzetfüzet az Azure Databricksben fut.

  7. Data Lake Storage tárolja a feldolgozott adatokat.

  8. Az Azure Healthcare API-k az adatokat egy Fast Healthcare Interoperability Resources (FHIR) csomagba csomagolják. A klinikai adatok ezután bekerülnek a beteg elektronikus egészségügyi nyilvántartásába (EHR).

  9. A klinikusok Power BI irányítópultokon tekintik meg az eredményeket.

Összetevők

A megoldás a következő összetevőket használja:

Microsoft Genomics

A Microsoft Genomics hatékony és pontos genomikai folyamatot kínál, amely megvalósítja az iparág ajánlott eljárásait. A nagy teljesítményű motorja az alábbi feladatokra van optimalizálva:

  • Nagyméretű genomikai adatokból álló fájlok olvasása
  • Hatékony feldolgozásuk több magon keresztül
  • Az eredmények rendezése és szűrése
  • Az eredmények írása kimeneti fájlokba

Az átviteli sebesség maximalizálása érdekében ez a motor egy Burrows-Wheeler Alignert (BWA) és egy Genome Analysis Toolkit (GATK) HaplotypeCaller változathívót működtet. A motor számos más összetevőt is használ, amelyek szabványos genomikai folyamatokat alkotnak. Ilyen például az ismétlődő megjelölés, az alapminőségi pontszám újraszámítása és az indexelés. Néhány óra múlva a motor egyetlen genommintát képes feldolgozni egyetlen többmagos kiszolgálón. A feldolgozás nyers olvasásokkal kezdődik. Összehangolt olvasási és variánshívásokat hoz létre.

Belsőleg a Microsoft Genomics-vezérlő kezeli a folyamat alábbi aspektusait:

  • Genomkötegek elosztása a felhőbeli gépkészletek között
  • Bejövő kérések várólistájának karbantartása
  • A kérések terjesztése a genomics motort futtató kiszolgálókra
  • A kiszolgálók teljesítményének és előrehaladásának monitorozása
  • Az eredmények kiértékelése
  • Annak biztosítása, hogy a feldolgozás megbízhatóan és biztonságosan fusson nagy méretekben, egy biztonságos webszolgáltatási API mögött

A Microsoft Genomics eredményeit egyszerűen használhatja harmadlagos elemzési és gépi tanulási szolgáltatásokban. Mivel a Microsoft Genomics egy felhőszolgáltatás, nem kell hardvert vagy szoftvert kezelnie vagy frissítenie.

Egyéb összetevők

  • A Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik. Ezzel a teljes körűen felügyelt, kiszolgáló nélküli platformmal vezényelheti és automatizálhatja a munkafolyamatokat. Ebben a megoldásban a Data Factory-folyamatok adatokat továbbítanak az Azure-ba. Ezután folyamatsorozat aktiválja a munkafolyamat minden lépését.

  • A Blob Storage nagy mennyiségű strukturálatlan adathoz kínál optimalizált felhőalapú objektumtárolást. Ebben a forgatókönyvben a Blob Storage biztosítja a FASTQ-fájl kezdeti célzónát. Ez a szolgáltatás a Microsoft Genomics által létrehozott VCF- és GVCF-fájlok kimeneti céljaként is működik. A Blob Storage rétegzési funkciója lehetővé teszi a FASTQ-fájlok archiválását olcsó, hosszú távú tárolókban a feldolgozás után.

  • Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök különböző forrásokból származó nagy adatstreameket dolgoznak fel. Ebben a megoldásban az Azure Databricks biztosítja azokat a számítási erőforrásokat, amelyek Jupyter Notebook az adatok megjegyzésekkel való ellátásához, egyesítéséhez és elemzéséhez szükségesek.

  • Data Lake Storage egy méretezhető és biztonságos adattó a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok strukturáltak, részben strukturáltak vagy strukturálatlanok lehetnek. Általában több heterogén forrásból származik. Ebben az architektúrában Data Lake Storage biztosítja a jegyzetekkel ellátott fájlok és az egyesített adathalmazok végső célzónát. Az alsóbb rétegbeli rendszerek számára is hozzáférést biztosít a végső kimenethez.

  • A Power BI olyan szoftverszolgáltatások és alkalmazások gyűjteménye, amelyek elemzési információkat jelenítenek meg. A Power BI használható nem kapcsolódó adatforrások csatlakoztatására és megjelenítésére. Ebben a megoldásban Power BI irányítópultokat is feltöltheti az eredményekkel. A klinikusok ezután vizualizációkat hozhatnak létre a végső adathalmazból.

  • Az Azure Healthcare API-k egy felügyelt, szabványokon alapuló, megfelelő felület a klinikai egészségügyi adatokhoz való hozzáféréshez. Ebben a forgatókönyvben az Azure Healthcare API-k átadnak egy FHIR-csomagot az EHR-nek a klinikai adatokkal együtt.

Forgatókönyv részletei

Ez a cikk egy genomelemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek. A megoldás egy klinikai genomikai munkafolyamatot biztosít, amely automatizálja ezeket a feladatokat:

  • Adatok felvétele egy szekvenciátorból
  • Adatok áthelyezése másodlagos elemzésen keresztül
  • Olyan eredmények biztosítása, amelyeket a klinikusok felhasználhatnak

A Genomics egyre növekvő mérete, összetettsége és biztonsági követelményei ideális választássá teszik a felhőbe való áttéréshez. Következésképpen a megoldás nyílt forráskódú eszközök mellett Azure-felhőszolgáltatásokat is használ. Ez a megközelítés kihasználja az Azure-felhő biztonsági, teljesítménybeli és méretezhetőségi funkcióit:

  • A tudósok több százezer genom szekvenálását tervezik a következő években. Az adatok tárolásához és elemzéséhez jelentős számítási teljesítményre és tárolási kapacitásra van szükség. A világ azon adatközpontjai, amelyek ezeket az erőforrásokat biztosítják, az Azure képes megfelelni ezeknek az igényeknek.
  • Az Azure tanúsítvánnyal rendelkezik a főbb globális biztonsági és adatvédelmi szabványokhoz, például az ISO 27001-hez.
  • Az Azure megfelel az egészségbiztosítási hordozhatóságról és elszámoltathatóságról szóló törvény (HIPAA) által a személyes egészségügyi adatokra vonatkozó biztonsági és származási előírásoknak.

A megoldás egyik fő összetevője a Microsoft Genomics. Ez a szolgáltatás egy optimalizált másodlagos elemzési implementációt kínál, amely néhány óra alatt képes feldolgozni egy 30x genomot . A standard technológiák napokig is eltarthatnak.

Lehetséges használati esetek

Ez a megoldás ideális az egészségügyi ágazat számára. Ez számos területre vonatkozik:

  • Kockázat pontozása betegek rák
  • A betegségre hajlamos genetikai jelölőkkel rendelkező betegek azonosítása
  • Betegek kohorszainak előállítása vizsgálatokhoz

Megfontolandó szempontok

A következő szempontok összhangban vannak a Microsoft Azure Well-Architected-keretrendszerrel, és vonatkoznak erre a megoldásra:

Rendelkezésre állási szempontok

A legtöbb Azure-összetevő szolgáltatói szerződései (SLA-k) garantálják a rendelkezésre állást:

Méretezési szempontok

A legtöbb Azure-szolgáltatás tervezés szerint méretezhető:

Biztonsági szempontok

A megoldás technológiái megfelelnek a legtöbb vállalat biztonsági követelményeinek.

Irányelvek

Az orvosi adatok bizalmas jellege miatt a következő dokumentumokban szereplő irányelvek szerint alakítsa ki a szabályozást és a biztonságot:

Előírásoknak való megfelelés

Általános biztonsági funkciók

Számos összetevő más módon is védi az adatokat:

Díjszabás

A legtöbb Azure-szolgáltatással csökkentheti a költségeket, ha csak azért fizet, amit használ:

Következő lépések

Teljes mértékben üzembe helyezhető architektúrák:

Data Factory-megoldások

Elemzési megoldások

Egészségügyi megoldások