Pipeline für Präzisionsmedizin mit Genomics

Azure Blob Storage

Azure Data Factory

Azure Data Lake Storage

Azure Databricks

Azure Microsoft Genomics

In diesem Artikel wird eine Lösung für genomische Analysen und Berichte vorgestellt. Die Prozesse und Ergebnisse eignen sich für medizinische Genauigkeitsszenarien oder Bereiche der medizinischen Versorgung, die die genetische Profilerstellung verwenden.

Aufbau

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow

Azure Data Factory orchestriert den Workflow:

Data Factory überträgt die erste Beispieldatei an Azure Blob Storage. Die Datei liegt im Format FASTQ vor.
Microsoft Genomics führt die sekundäre Analyse mit der Datei aus.
Microsoft Genomics speichert die Ausgabe in Blob Storage in einem der folgenden Formate:
- VCF (Variant Call Format)
- GVCF (Genomic VCF)
Jupyter Notebook kommentiert die Ausgabedatei. Das Notebook wird auf Azure Databricks ausgeführt.
Azure Data Lake Storage speichert die kommentierte Datei.
Jupyter Notebook führt die Datei mit anderen Datasets zusammen und analysiert die Daten. Das Notebook wird auf Azure Databricks ausgeführt.
Data Lake Storage speichert die verarbeiteten Daten.
Azure Healthcare-APIs packen die Daten in ein FHIR-Paket (Fast Healthcare Interoperability Resources). Die klinischen Daten werden dann in die elektronische Patientenakte (patient electronic health record, EHR) eingegeben.
Ärzte lassen sich die Ergebnisse in Power BI Dashboards anzeigen.

Komponenten

Diese Lösung verwendet die folgenden Komponenten:

Microsoft Genomics

Microsoft Genomics bietet eine effiziente und genaue Genomikpipeline, die die bewährten Methoden der Branche implementiert. Die Hochleistungs-Engine ist für folgende Aufgaben optimiert:

Lesen großer Dateien von Genomdaten
Effiziente Verarbeitung über viele Kerne hinweg
Sortieren und Filtern der Ergebnisse
Schreiben der Ergebnisse in Ausgabedateien

Um den Durchsatz zu maximieren, nutzt diese Engine als aufrufende Funktion eine BWA- und GATK-HaplotypeCaller-Variante (Burrows-Wheeler Aligner und Genomanalyse-Toolkit). Die Engine nutzt zudem mehrere andere Komponenten, aus denen standardmäßige Genomik-Pipelines gehören. Beispiele hierfür sind die doppelte Kennzeichnung, die Neubewertung der Basisqualität und die Indizierung. In wenigen Stunden kann die Engine ein einzelnes Genombeispiel auf einem einzelnen Server mit mehreren Kernen verarbeiten. Die Verarbeitung beginnt mit unaufbereiteten Lesedaten. Sie erzeugt ausgerichtete Lesevorgänge und Variantenaufrufe.

Intern verwaltet der Microsoft Genomics Controller folgende Bereiche des Prozesses:

Verteilen von Genombatches über Computerpools in der Cloud
Verwalten einer Warteschlange für eingehende Anforderungen
Verteilen der Anforderungen an Server, auf denen die Genomik-Engine ausgeführt wird
Überwachen der Leistung und des Fortschritts der Server
Auswerten der Ergebnisse
Sicherstellen, dass die Verarbeitung zuverlässig und sicher im großen Stil hinter einer sicheren Webdienst-API ausgeführt wird

Sie können Microsoft Genomics Ergebnisse problemlos in den Diensten für die tertiäre Analyse und maschinelles Lernen verwenden. Und da Microsoft Genomics ein Clouddienst ist, müssen Sie weder Hardware noch Software verwalten oder aktualisieren.

Andere Komponenten

Data Factory ist ein Integrationsdienst, der mit Daten aus unterschiedlichen Datenspeichern arbeitet. Diese vollständig verwaltete, serverlose Plattform ermöglicht das Orchestrieren und Automatisieren von Workflows. Insbesondere Data Factory Pipelines übertragen in dieser Lösung Daten an Azure. Eine Sequenz von Pipelines löst dann jeden Schritt des Workflows aus.
Blob Storage bietet einen optimierten Cloudobjektspeicher für große Mengen unstrukturierter Daten. In diesem Szenario stellt Blob Storage die anfängliche Zielzone für die FASTQ-Datei bereit. Dieser Dienst fungiert auch als Ausgabeziel für die VCF- und GVCF-Dateien, die Microsoft Genomics generiert. Die Tieringfunktion in Blob Storage bietet eine Möglichkeit, FASTQ-Dateien nach der Verarbeitung in kostengünstigem Langzeitspeicher zu archivieren.
Azure Databricks ist eine Datenanalyseplattform. Von den vollständig verwalteten Spark-Clustern der Plattform werden große Datenströme aus verschiedenen Quellen verarbeitet. In dieser Lösung stellt Azure Databricks die Computerressourcen bereit, die Jupyter Notebook zum Kommentieren, Zusammenführen und Analysieren der Daten benötigt.
Data Lake Storage ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Dieser Dienst kann mehrere Petabyte an Informationen verwalten und gleichzeitig Hunderte von Gigabyte an Durchsatz aufrechterhalten. Die Daten können strukturiert, halbstrukturiert oder unstrukturiert sein. In der Regel stammen die Daten aus mehreren heterogenen Quellen. In dieser Architektur stellt Data Lake Storage die endgültige Zielzone für die kommentierten Dateien und die zusammengeführten Datasets bereit. Außerdem erhalten nachgeschaltete Systeme Zugriff auf die endgültige Ausgabe.
Power BI ist eine Sammlung von Softwarediensten und Apps, die Analyseinformationen anzeigen. Sie können Power BI verwenden, um eine Verbindung mit nicht verknüpften Datenquellen herzustellen und diese anzuzeigen. In dieser Lösung können Sie die Ergebnisse in die Power BI Dashboards einspielen. Die Ärzte können dann aus dem endgültigen Dataset visuelle Elemente erstellen.
Azure Healthcare APIs sind eine verwaltete, standardbasierte, konforme Schnittstelle für den Zugriff auf klinische Gesundheitsdaten. In diesem Szenario übergeben Azure Healthcare APIs ein FHIR-Paket mit den klinischen Daten an das EHR.

Szenariodetails

Übernehmen von Daten aus einem Sequenzer
Verschieben der Daten durch sekundäre Analyse
Bereitstellen von Ergebnissen, die Ärzte nutzen können

Aufgrund der zunehmenden Skalierungs-, Komplexitäts- und Sicherheitsanforderungen im Bereich Genomik ist dies ein idealer Kandidat für den Wechsel in die Cloud. Daher verwendet die Lösung neben Open-Source-Tools auch die Azure-Dienste. Bei diesem Ansatz werden die Sicherheits-, Leistungs- und Skalierbarkeitsfunktionen der Azure-Cloud genutzt:

Die Forscher planen, in den nächsten Jahren Hunderttausende Genome zu sequenzieren. Das Speichern und Analysieren dieser Daten erfordert erhebliche Rechenleistung und Speicherkapazität. Mit Rechenzentren auf der ganzen Welt, die diese Ressourcen bereitstellen, kann Azure diese Anforderungen erfüllen.
Azure ist für wichtige globale Sicherheits- und Datenschutzstandards wie bspw. ISO 27001 zertifiziert.
Azure entspricht den Sicherheits- und Provenienzstandards, die gemäß dem HIPAA (Health Insurance Portability and Accountability Act) für personenbezogene Gesundheitsinformationen gelten.

Eine wichtige Komponente der Lösung ist Microsoft Genomics. Dieser Dienst bietet eine optimierte sekundäre Analyseimplementierung, die ein 30x Genom in wenigen Stunden verarbeiten kann. Standardtechnologien können demgegenüber mehrere Tage dauern.

Mögliche Anwendungsfälle

Diese Lösung eignet sich ideal für die Gesundheitsbranche. Sie eignet sich für viele Bereiche:

Risikobewertung von Patienten im Hinblick auf Krebs
Identifizieren von Patienten mit genetischen Markern, die eine Veranlagung für eine Krankheit darstellen
Generieren von Patientenkohorten für Studien

Überlegungen

Für diese Lösung gelten im Hinblick auf das Microsoft Azure Well-Architected Framework die folgenden Überlegungen:

Verfügbarkeit

Die Vereinbarungen zum Servicelevel (Service Level Agreements, SLAs) der meisten Azure-Komponenten garantieren folgende Verfügbarkeiten:

Mindestens 99,9 Prozent der Data Factory Pipelines werden garantiert erfolgreich ausgeführt.
Die Azure Databricks SLA garantiert eine Verfügbarkeit von 99,95 Prozent.
Microsoft Genomics bietet eine SLA-Verfügbarkeit von 99,99 Prozent für Workflowanforderungen.
Blob Storage und Data Lake Storage sind Teil von Azure Storage, das Verfügbarkeit durch Redundanz bietet.

Skalierbarkeit

Die meisten Azure-Dienste sind standardmäßig skalierbar:

Data Factory transformiert Daten im großen Umfang.
Die Cluster in Azure Databricks werden nach Bedarf dimensioniert.
Informationen zum Optimieren der Skalierbarkeit in Blob Storage finden Sie unter Checkliste zu Leistung und Skalierbarkeit für Blob Storage.
Data Lake Storage kann Exabytes von Daten verwalten.
Microsoft Genomics führt Workloads im Exabyte-Maßstab aus.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Die Technologien in dieser Lösung erfüllen in Sachen Sicherheit die Anforderungen der meisten Unternehmen.

Richtlinien

Aufgrund der sensiblen Natur medizinischer Daten richten Sie Governance- und Sicherheitsfunktionen ein, indem Sie die Richtlinien in diesen Dokumenten befolgen:

Compliance

In diesen Dokumenten finden Sie Informationen zur Einhaltung der HIPAA- und HITECH-Act-Bestimmungen (HITECH: Health Information Technology for Economic and Clinical Health):
- HIPAA - Azure Compliance
- HIPAA (Health Insurance Portability and Accountability Act) & HITECH Act (Health Information Technology for Economic and Clinical Health)
Komponenten dieser Lösung sind gemäß den Microsoft Azure Complianceangeboten im Umfang für HIPAA vorgesehen. Wenn Sie andere Komponenten ersetzen, überprüfen Sie sie zuerst anhand der Liste im Anhang dieses Dokuments.

Allgemeine Sicherheitsfeatures

Bestimmte Komponenten sichern Daten auch auf andere Weise:

Die Azure Data Factory verschlüsselt Daten, die von ihr übertragen werden. Außerdem werden Azure Key Vault-Zertifikate zum Verschlüsseln von Anmeldeinformationen verwendet.
Azure Databricks bietet viele Tools zum Schutz Ihrer Netzwerkinfrastruktur und -daten. Beispiele hierfür sind Zugriffssteuerungslisten, Geheimnisse und keine öffentliche IP-Adresse (NPIP).
Blob Storage unterstützt die Speicherdienstverschlüsselung (Storage Service Encryption, SSE), die Daten vor dem Speichern automatisch verschlüsselt. Blob Storage bietet darüber hinaus viele weitere Möglichkeiten zum Schutz von Daten und Netzwerken.
Data Lake Storage bietet Zugriffssteuerung. Das Modell unterstützt diese Arten von Steuerelementen:
- Was ist die rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) für Azure-Ressourcen?
- POSIX-Zugriffssteuerungslisten (ACLs; Portable Operating System Interface)

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Mit den meisten Azure-Diensten können Sie Ihre Kosten senken, denn Sie bezahlen nur für das, was Sie auch verwenden:

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Wylie Graham | Senior Program Manager
Matt Hansen | Senior Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Share via

Pipeline für Präzisionsmedizin mit Genomics

Aufbau

Workflow

Komponenten

Microsoft Genomics

Andere Komponenten

Szenariodetails

Mögliche Anwendungsfälle

Überlegungen

Verfügbarkeit

Skalierbarkeit

Sicherheit

Richtlinien

Compliance

Allgemeine Sicherheitsfeatures

Kostenoptimierung

Beitragende

Nächste Schritte

Data Factory Lösungen

Analytics-Lösungen

Lösungen für das Gesundheitswesen

Feedback

Feedback

Zusätzliche Ressourcen

Share via

Pipeline für Präzisionsmedizin mit Genomics

Aufbau

Workflow

Komponenten

Microsoft Genomics

Andere Komponenten

Szenariodetails

Mögliche Anwendungsfälle

Überlegungen

Verfügbarkeit

Skalierbarkeit

Sicherheit

Richtlinien

Compliance

Allgemeine Sicherheitsfeatures

Kostenoptimierung

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Data Factory Lösungen

Analytics-Lösungen

Lösungen für das Gesundheitswesen

Feedback

Feedback

Zusätzliche Ressourcen