Bearbeiten

Share via


Pipeline für Präzisionsmedizin mit Genomics

Azure Blob Storage
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

In diesem Artikel wird eine Lösung für genomische Analysen und Berichte vorgestellt. Die Prozesse und Ergebnisse eignen sich für medizinische Genauigkeitsszenarien oder Bereiche der medizinischen Versorgung, die die genetische Profilerstellung verwenden.

Aufbau

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Das Diagramm enthält zwei Felder. Das erste auf der linken Seite trägt die Bezeichnung Azure Data Factory zur Orchestrierung. Das zweite Feld hat die Bezeichnung „Clinician views“ (Arztansichen). Das erste Feld enthält mehrere kleinere Felder mit Daten oder verschiedenen Azure-Komponenten. Die Felder sind durch Pfeile miteinander verbunden. Die nummerierten Bezeichnungen auf den Pfeilen entsprechen den nummerierten Schritten im Dokumenttext. Zwischen den Feldern fließen zwei Pfeile, die im Feld „Clinician views“ (Arztansichen) enden. Ein Pfeil zeigt auf ein Ärztesymbol. Der andere zeigt auf ein Power BI Symbol.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow

Azure Data Factory orchestriert den Workflow:

  1. Data Factory überträgt die erste Beispieldatei an Azure Blob Storage. Die Datei liegt im Format FASTQ vor.

  2. Microsoft Genomics führt die sekundäre Analyse mit der Datei aus.

  3. Microsoft Genomics speichert die Ausgabe in Blob Storage in einem der folgenden Formate:

    • VCF (Variant Call Format)
    • GVCF (Genomic VCF)
  4. Jupyter Notebook kommentiert die Ausgabedatei. Das Notebook wird auf Azure Databricks ausgeführt.

  5. Azure Data Lake Storage speichert die kommentierte Datei.

  6. Jupyter Notebook führt die Datei mit anderen Datasets zusammen und analysiert die Daten. Das Notebook wird auf Azure Databricks ausgeführt.

  7. Data Lake Storage speichert die verarbeiteten Daten.

  8. Azure Healthcare-APIs packen die Daten in ein FHIR-Paket (Fast Healthcare Interoperability Resources). Die klinischen Daten werden dann in die elektronische Patientenakte (patient electronic health record, EHR) eingegeben.

  9. Ärzte lassen sich die Ergebnisse in Power BI Dashboards anzeigen.

Komponenten

Diese Lösung verwendet die folgenden Komponenten:

Microsoft Genomics

Microsoft Genomics bietet eine effiziente und genaue Genomikpipeline, die die bewährten Methoden der Branche implementiert. Die Hochleistungs-Engine ist für folgende Aufgaben optimiert:

  • Lesen großer Dateien von Genomdaten
  • Effiziente Verarbeitung über viele Kerne hinweg
  • Sortieren und Filtern der Ergebnisse
  • Schreiben der Ergebnisse in Ausgabedateien

Um den Durchsatz zu maximieren, nutzt diese Engine als aufrufende Funktion eine BWA- und GATK-HaplotypeCaller-Variante (Burrows-Wheeler Aligner und Genomanalyse-Toolkit). Die Engine nutzt zudem mehrere andere Komponenten, aus denen standardmäßige Genomik-Pipelines gehören. Beispiele hierfür sind die doppelte Kennzeichnung, die Neubewertung der Basisqualität und die Indizierung. In wenigen Stunden kann die Engine ein einzelnes Genombeispiel auf einem einzelnen Server mit mehreren Kernen verarbeiten. Die Verarbeitung beginnt mit unaufbereiteten Lesedaten. Sie erzeugt ausgerichtete Lesevorgänge und Variantenaufrufe.

Intern verwaltet der Microsoft Genomics Controller folgende Bereiche des Prozesses:

  • Verteilen von Genombatches über Computerpools in der Cloud
  • Verwalten einer Warteschlange für eingehende Anforderungen
  • Verteilen der Anforderungen an Server, auf denen die Genomik-Engine ausgeführt wird
  • Überwachen der Leistung und des Fortschritts der Server
  • Auswerten der Ergebnisse
  • Sicherstellen, dass die Verarbeitung zuverlässig und sicher im großen Stil hinter einer sicheren Webdienst-API ausgeführt wird

Sie können Microsoft Genomics Ergebnisse problemlos in den Diensten für die tertiäre Analyse und maschinelles Lernen verwenden. Und da Microsoft Genomics ein Clouddienst ist, müssen Sie weder Hardware noch Software verwalten oder aktualisieren.

Andere Komponenten

  • Data Factory ist ein Integrationsdienst, der mit Daten aus unterschiedlichen Datenspeichern arbeitet. Diese vollständig verwaltete, serverlose Plattform ermöglicht das Orchestrieren und Automatisieren von Workflows. Insbesondere Data Factory Pipelines übertragen in dieser Lösung Daten an Azure. Eine Sequenz von Pipelines löst dann jeden Schritt des Workflows aus.

  • Blob Storage bietet einen optimierten Cloudobjektspeicher für große Mengen unstrukturierter Daten. In diesem Szenario stellt Blob Storage die anfängliche Zielzone für die FASTQ-Datei bereit. Dieser Dienst fungiert auch als Ausgabeziel für die VCF- und GVCF-Dateien, die Microsoft Genomics generiert. Die Tieringfunktion in Blob Storage bietet eine Möglichkeit, FASTQ-Dateien nach der Verarbeitung in kostengünstigem Langzeitspeicher zu archivieren.

  • Azure Databricks ist eine Datenanalyseplattform. Von den vollständig verwalteten Spark-Clustern der Plattform werden große Datenströme aus verschiedenen Quellen verarbeitet. In dieser Lösung stellt Azure Databricks die Computerressourcen bereit, die Jupyter Notebook zum Kommentieren, Zusammenführen und Analysieren der Daten benötigt.

  • Data Lake Storage ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Dieser Dienst kann mehrere Petabyte an Informationen verwalten und gleichzeitig Hunderte von Gigabyte an Durchsatz aufrechterhalten. Die Daten können strukturiert, halbstrukturiert oder unstrukturiert sein. In der Regel stammen die Daten aus mehreren heterogenen Quellen. In dieser Architektur stellt Data Lake Storage die endgültige Zielzone für die kommentierten Dateien und die zusammengeführten Datasets bereit. Außerdem erhalten nachgeschaltete Systeme Zugriff auf die endgültige Ausgabe.

  • Power BI ist eine Sammlung von Softwarediensten und Apps, die Analyseinformationen anzeigen. Sie können Power BI verwenden, um eine Verbindung mit nicht verknüpften Datenquellen herzustellen und diese anzuzeigen. In dieser Lösung können Sie die Ergebnisse in die Power BI Dashboards einspielen. Die Ärzte können dann aus dem endgültigen Dataset visuelle Elemente erstellen.

  • Azure Healthcare APIs sind eine verwaltete, standardbasierte, konforme Schnittstelle für den Zugriff auf klinische Gesundheitsdaten. In diesem Szenario übergeben Azure Healthcare APIs ein FHIR-Paket mit den klinischen Daten an das EHR.

Szenariodetails

In diesem Artikel wird eine Lösung für genomische Analysen und Berichte vorgestellt. Die Prozesse und Ergebnisse eignen sich für medizinische Genauigkeitsszenarien oder Bereiche der medizinischen Versorgung, die die genetische Profilerstellung verwenden. Die Lösung bietet insbesondere einen Workflow für die klinische Genomik, der diese Aufgaben automatisiert:

  • Übernehmen von Daten aus einem Sequenzer
  • Verschieben der Daten durch sekundäre Analyse
  • Bereitstellen von Ergebnissen, die Ärzte nutzen können

Aufgrund der zunehmenden Skalierungs-, Komplexitäts- und Sicherheitsanforderungen im Bereich Genomik ist dies ein idealer Kandidat für den Wechsel in die Cloud. Daher verwendet die Lösung neben Open-Source-Tools auch die Azure-Dienste. Bei diesem Ansatz werden die Sicherheits-, Leistungs- und Skalierbarkeitsfunktionen der Azure-Cloud genutzt:

  • Die Forscher planen, in den nächsten Jahren Hunderttausende Genome zu sequenzieren. Das Speichern und Analysieren dieser Daten erfordert erhebliche Rechenleistung und Speicherkapazität. Mit Rechenzentren auf der ganzen Welt, die diese Ressourcen bereitstellen, kann Azure diese Anforderungen erfüllen.
  • Azure ist für wichtige globale Sicherheits- und Datenschutzstandards wie bspw. ISO 27001 zertifiziert.
  • Azure entspricht den Sicherheits- und Provenienzstandards, die gemäß dem HIPAA (Health Insurance Portability and Accountability Act) für personenbezogene Gesundheitsinformationen gelten.

Eine wichtige Komponente der Lösung ist Microsoft Genomics. Dieser Dienst bietet eine optimierte sekundäre Analyseimplementierung, die ein 30x Genom in wenigen Stunden verarbeiten kann. Standardtechnologien können demgegenüber mehrere Tage dauern.

Mögliche Anwendungsfälle

Diese Lösung eignet sich ideal für die Gesundheitsbranche. Sie eignet sich für viele Bereiche:

  • Risikobewertung von Patienten im Hinblick auf Krebs
  • Identifizieren von Patienten mit genetischen Markern, die eine Veranlagung für eine Krankheit darstellen
  • Generieren von Patientenkohorten für Studien

Überlegungen

Für diese Lösung gelten im Hinblick auf das Microsoft Azure Well-Architected Framework die folgenden Überlegungen:

Verfügbarkeit

Die Vereinbarungen zum Servicelevel (Service Level Agreements, SLAs) der meisten Azure-Komponenten garantieren folgende Verfügbarkeiten:

Skalierbarkeit

Die meisten Azure-Dienste sind standardmäßig skalierbar:

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Die Technologien in dieser Lösung erfüllen in Sachen Sicherheit die Anforderungen der meisten Unternehmen.

Richtlinien

Aufgrund der sensiblen Natur medizinischer Daten richten Sie Governance- und Sicherheitsfunktionen ein, indem Sie die Richtlinien in diesen Dokumenten befolgen:

Compliance

Allgemeine Sicherheitsfeatures

Bestimmte Komponenten sichern Daten auch auf andere Weise:

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Mit den meisten Azure-Diensten können Sie Ihre Kosten senken, denn Sie bezahlen nur für das, was Sie auch verwenden:

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Vollständig bereitstellbare Architekturen:

Data Factory Lösungen

Analytics-Lösungen

Lösungen für das Gesundheitswesen