Kanál Precision Medicine s využitím genomiky

Blob Storage
Data Factory
Data Lake Storage
Databricks
Microsoft Genomics

Tento článek představuje řešení pro analýzu a vytváření sestav pomocí genomiky. Procesy a výsledky jsou vhodné pro scénáře Precision Medicine nebo oblasti lékařské péče, které používají genetické profilování. Konkrétně řešení poskytuje pracovní postup klinického genomiky, který automatizuje tyto úlohy:

  • Přebírání dat z aplikace Sequencer
  • Přesun dat prostřednictvím sekundární analýzy
  • Poskytování výsledků, které může lékařům spotřebovat

Rostoucí škálování, složitost a požadavky na zabezpečení genomiky je ideálním kandidátem na přechod do cloudu. V důsledku toho řešení kromě open source nástrojů používá Azure Cloud Services. Tento přístup využívá funkce zabezpečení, výkonu a škálovatelnosti cloudu Azure:

  • Vědečtí pracovníci plánují sekvencování stovek tisíců genomů v nadcházejících letech. Úloha ukládání a analýzy těchto dat vyžaduje významnou výpočetní kapacitu a kapacitu úložiště. Díky datovým centrům po celém světě, které poskytují tyto prostředky, může Azure tyto požadavky splnit.
  • Azure je certifikovaný pro hlavní globální standardy zabezpečení a ochrany osobních údajů, jako je ISO 27001.
  • Azure je v souladu se standardy zabezpečení a provenience, které zákon o zdravotním pojištění (HIPAA) vytváří pro osobní informace o zdravotním stavu.

Klíčovou součástí řešení je Microsoft Genomics. Tato služba nabízí optimalizovanou sekundární implementaci analýzy, která dokáže zpracovat 30krát genom během pár hodin. Standardní technologie mohou trvat několik dní.

Potenciální případy použití

Toto řešení se vztahuje na mnoho oblastí:

  • Pacienty pro vyhodnocování rizik pro rakovinu
  • Identifikace pacientů pomocí genetických značek, které je predispose na chorobu
  • Generování pacienta kohorty pro studie

Architektura

Diagram architektury znázorňující, jakým způsobem se zaznamenávají informace prostřednictvím analýzy genomiky a kanálu vytváření sestav.

Diagram obsahuje dva rámečky. První na levé straně má popisek Azure Data Factory pro orchestraci. Druhé pole má clinician zobrazení popisku. První pole obsahuje několik menších polí, která reprezentují data nebo různé součásti Azure. Šipky propojí pole a očíslované popisky na šipky odpovídají očíslovaným krokům v textu dokumentu. Dva šipky mezi poli končí v poli clinician zobrazení. Jedna šipka odkazuje na ikonu clinician. druhá ukazuje na ikonu Power BI.

Stáhněte si soubor aplikace Visio s touto architekturou.

Azure Data Factory orchestruje pracovní postup:

  1. Data Factory přenáší počáteční ukázkový soubor do Azure Blob Storage. Soubor je ve formátu souborů fastq.

  2. Microsoft Genomics spustí sekundární analýzu souboru.

  3. Microsoft Genomics ukládá výstup v Blob Storage v jednom z těchto formátů:

    • Formát volání variant (VCF)
    • Genom VCF (GVCF)
  4. Jupyter Notebook do výstupního souboru Poznámka. Poznámkový blok běží na Azure Databricks.

  5. Azure Data Lake Storage ukládá soubor s poznámkami.

  6. Jupyter Notebook sloučí soubor s jinými datovými sadami a analyzuje data. Poznámkový blok běží na Azure Databricks.

  7. Data Lake Storage ukládá zpracovaná data.

  8. Rozhraní API pro zdravotní péče Azure zabalí data do rychlého FHIR sady prostředků pro interoperabilitu zdravotní péče. Klinická data pak vstupují do záznamu elektronického stavu pacienta (EHR).

  9. lékařům zobrazí výsledky v Power BI řídicích panelech.

Komponenty

Řešení používá následující komponenty:

Microsoft Genomics

Microsoft Genomics nabízí účinný a přesný kanál genomiky, který implementuje osvědčené postupy pro odvětví. Jeho vysoce výkonný modul je optimalizovaný pro tyto úlohy:

  • Čtení velkých souborů dat genomiky
  • Efektivní zpracování napříč mnoha jádry
  • Řazení a filtrování výsledků
  • Zápis výsledků do výstupních souborů

pro maximalizaci propustnosti tento modul provozuje Burrows-Wheeler BWA (genome) a volající HaplotypeCaller pro Toolkit analýzu genomu. Modul používá také několik dalších komponent, které tvoří standardní kanály genomiky. Příklady zahrnují duplicitní označení, rekalibraci skóre kvality základní kvality a indexování. Během několika hodin může modul zpracovat jednu ukázku genomu na jednom serveru s více jádry. Zpracování začíná nezpracovanými čteními. Vytváří zarovnané čtení a volání variant.

Interní Microsoft Genomics kontroler tyto aspekty tohoto procesu řídí:

  • Distribuce dávek genomů napříč fondy počítačů v cloudu
  • Údržba fronty příchozích požadavků
  • Distribuce požadavků na servery, na kterých běží modul genomiky
  • Monitorování výkonu a průběhu serverů
  • Vyhodnocení výsledků
  • Zajištění spolehlivého a bezpečného zpracování v rámci škálování za zabezpečené rozhraní API webové služby

Výsledky Microsoft Genomics můžete snadno použít ve terciárních službách pro analýzu a službu Machine Learning. A protože Microsoft Genomics je cloudová služba, nemusíte spravovat ani aktualizovat hardware ani software.

Další součásti

  • Data Factory je integrační služba, která pracuje s daty z různorodých úložišť dat. Tuto plně spravovanou platformu bez serveru můžete použít k orchestraci a automatizaci pracovních postupů. Konkrétně Data Factory kanály přenášejí data do Azure v tomto řešení. Posloupnost kanálů pak aktivuje každý krok pracovního postupu.

  • Blob Storage nabízí optimalizované cloudové úložiště objektů pro velké objemy nestrukturovaných dat. v tomto scénáři Blob Storage poskytuje počáteční cílovou zónu pro soubor souborů fastq. Tato služba funguje taky jako cíl výstupu pro soubory VCF a GVCF, které Microsoft Genomics generuje. funkce vrstvení v Blob Storage poskytuje způsob, jak archivovat soubory souborů fastq v levném dlouhodobém úložišti po zpracování.

  • Azure Databricks je platforma pro analýzu dat. Jeho plně spravované Clustery Spark zpracovávají velké proudy dat z různých zdrojů. V tomto řešení Azure Databricks poskytuje výpočetní prostředky, které Jupyter Notebook potřebuje k přidávání poznámek, slučování a analyzování dat.

  • Data Lake Storage je škálovatelné a zabezpečené Data Lake pro úlohy s vysokým výkonem analýz. Tato služba může spravovat víc petabajty informací a současně udržuje stovky gigabitových přenosů. Data mohou být strukturovaná, částečně strukturovaná nebo nestrukturovaná. Obvykle pochází z několika heterogenních zdrojů. v této architektuře Data Lake Storage poskytuje koncovou cílovou zónu pro soubory s poznámkou a sloučené datové sady. Také poskytuje podřízené systémy přístup k konečnému výstupu.

  • Power BI je kolekce softwarových služeb a aplikací, které zobrazují informace o analýze. Power BI můžete použít k připojení a zobrazení nesouvisejících zdrojů dat. v tomto řešení můžete naplnit Power BI řídicí panely výsledky. Lékařům může vytvořit vizuály z konečné datové sady.

  • Rozhraní API pro zdravotní péče Azure je spravované rozhraní vyhovující standardům pro přístup k klinickým datům o zdravotním stavu. Pokud používáte rozhraní API pro zdravotní péče Azure, můžete použít referenční architektury a implementace v architekturách Health . V tomto scénáři rozhraní API pro zdravotní péče Azure předá do EHR FHIR sadu s klinickými daty.

Požadavky

následující skutečnosti jsou v souladu s Microsoft Azure Well-Architected Framework a vztahují se na toto řešení:

Aspekty dostupnosti

Smlouvy o úrovni služeb (SLA) většiny součástí Azure Components zaručují dostupnost:

Aspekty zabezpečení

Většina služeb Azure je škálovatelná podle návrhu:

Důležité informace o zabezpečení

Technologie v tomto řešení splňují většinu požadavků společnosti na zabezpečení.

Pokyny

Z důvodu citlivého charakteru lékařských dat stanovte zásady správného řízení a zabezpečení podle pokynů uvedených v těchto dokumentech:

Dodržování legislativní předpisů

Obecné funkce zabezpečení

Několik komponent také zabezpečuje data jinými způsoby:

Ceny

U většiny služeb Azure můžete snížit náklady jenom za to, co využijete:

Další kroky

Plně nasazovatelné architektury:

Data Factory řešení

Analytická řešení

Řešení zdravotnictví