In diesem Artikel wird eine Lösung für genomische Analysen und Berichte vorgestellt. Die Prozesse und Ergebnisse eignen sich für medizinische Genauigkeitsszenarien oder Bereiche der medizinischen Versorgung, die die genetische Profilerstellung verwenden.
Aufbau
Das Diagramm enthält zwei Felder. Das erste auf der linken Seite trägt die Bezeichnung Azure Data Factory zur Orchestrierung. Das zweite Feld hat die Bezeichnung „Clinician views“ (Arztansichen). Das erste Feld enthält mehrere kleinere Felder mit Daten oder verschiedenen Azure-Komponenten. Die Felder sind durch Pfeile miteinander verbunden. Die nummerierten Bezeichnungen auf den Pfeilen entsprechen den nummerierten Schritten im Dokumenttext. Zwischen den Feldern fließen zwei Pfeile, die im Feld „Clinician views“ (Arztansichen) enden. Ein Pfeil zeigt auf ein Ärztesymbol. Der andere zeigt auf ein Power BI Symbol.
Laden Sie eine Visio-Datei dieser Architektur herunter.
Workflow
Azure Data Factory orchestriert den Workflow:
Data Factory überträgt die erste Beispieldatei an Azure Blob Storage. Die Datei liegt im Format FASTQ vor.
Microsoft Genomics führt die sekundäre Analyse mit der Datei aus.
Microsoft Genomics speichert die Ausgabe in Blob Storage in einem der folgenden Formate:
- VCF (Variant Call Format)
- GVCF (Genomic VCF)
Jupyter Notebook kommentiert die Ausgabedatei. Das Notebook wird auf Azure Databricks ausgeführt.
Azure Data Lake Storage speichert die kommentierte Datei.
Jupyter Notebook führt die Datei mit anderen Datasets zusammen und analysiert die Daten. Das Notebook wird auf Azure Databricks ausgeführt.
Data Lake Storage speichert die verarbeiteten Daten.
Azure Healthcare-APIs packen die Daten in ein FHIR-Paket (Fast Healthcare Interoperability Resources). Die klinischen Daten werden dann in die elektronische Patientenakte (patient electronic health record, EHR) eingegeben.
Ärzte lassen sich die Ergebnisse in Power BI Dashboards anzeigen.
Komponenten
Diese Lösung verwendet die folgenden Komponenten:
Microsoft Genomics
Microsoft Genomics bietet eine effiziente und genaue Genomikpipeline, die die bewährten Methoden der Branche implementiert. Die Hochleistungs-Engine ist für folgende Aufgaben optimiert:
- Lesen großer Dateien von Genomdaten
- Effiziente Verarbeitung über viele Kerne hinweg
- Sortieren und Filtern der Ergebnisse
- Schreiben der Ergebnisse in Ausgabedateien
Um den Durchsatz zu maximieren, nutzt diese Engine als aufrufende Funktion eine BWA- und GATK-HaplotypeCaller-Variante (Burrows-Wheeler Aligner und Genomanalyse-Toolkit). Die Engine nutzt zudem mehrere andere Komponenten, aus denen standardmäßige Genomik-Pipelines gehören. Beispiele hierfür sind die doppelte Kennzeichnung, die Neubewertung der Basisqualität und die Indizierung. In wenigen Stunden kann die Engine ein einzelnes Genombeispiel auf einem einzelnen Server mit mehreren Kernen verarbeiten. Die Verarbeitung beginnt mit unaufbereiteten Lesedaten. Sie erzeugt ausgerichtete Lesevorgänge und Variantenaufrufe.
Intern verwaltet der Microsoft Genomics Controller folgende Bereiche des Prozesses:
- Verteilen von Genombatches über Computerpools in der Cloud
- Verwalten einer Warteschlange für eingehende Anforderungen
- Verteilen der Anforderungen an Server, auf denen die Genomik-Engine ausgeführt wird
- Überwachen der Leistung und des Fortschritts der Server
- Auswerten der Ergebnisse
- Sicherstellen, dass die Verarbeitung zuverlässig und sicher im großen Stil hinter einer sicheren Webdienst-API ausgeführt wird
Sie können Microsoft Genomics Ergebnisse problemlos in den Diensten für die tertiäre Analyse und maschinelles Lernen verwenden. Und da Microsoft Genomics ein Clouddienst ist, müssen Sie weder Hardware noch Software verwalten oder aktualisieren.
Andere Komponenten
Data Factory ist ein Integrationsdienst, der mit Daten aus unterschiedlichen Datenspeichern arbeitet. Diese vollständig verwaltete, serverlose Plattform ermöglicht das Orchestrieren und Automatisieren von Workflows. Insbesondere Data Factory Pipelines übertragen in dieser Lösung Daten an Azure. Eine Sequenz von Pipelines löst dann jeden Schritt des Workflows aus.
Blob Storage bietet einen optimierten Cloudobjektspeicher für große Mengen unstrukturierter Daten. In diesem Szenario stellt Blob Storage die anfängliche Zielzone für die FASTQ-Datei bereit. Dieser Dienst fungiert auch als Ausgabeziel für die VCF- und GVCF-Dateien, die Microsoft Genomics generiert. Die Tieringfunktion in Blob Storage bietet eine Möglichkeit, FASTQ-Dateien nach der Verarbeitung in kostengünstigem Langzeitspeicher zu archivieren.
Azure Databricks ist eine Datenanalyseplattform. Von den vollständig verwalteten Spark-Clustern der Plattform werden große Datenströme aus verschiedenen Quellen verarbeitet. In dieser Lösung stellt Azure Databricks die Computerressourcen bereit, die Jupyter Notebook zum Kommentieren, Zusammenführen und Analysieren der Daten benötigt.
Data Lake Storage ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Dieser Dienst kann mehrere Petabyte an Informationen verwalten und gleichzeitig Hunderte von Gigabyte an Durchsatz aufrechterhalten. Die Daten können strukturiert, halbstrukturiert oder unstrukturiert sein. In der Regel stammen die Daten aus mehreren heterogenen Quellen. In dieser Architektur stellt Data Lake Storage die endgültige Zielzone für die kommentierten Dateien und die zusammengeführten Datasets bereit. Außerdem erhalten nachgeschaltete Systeme Zugriff auf die endgültige Ausgabe.
Power BI ist eine Sammlung von Softwarediensten und Apps, die Analyseinformationen anzeigen. Sie können Power BI verwenden, um eine Verbindung mit nicht verknüpften Datenquellen herzustellen und diese anzuzeigen. In dieser Lösung können Sie die Ergebnisse in die Power BI Dashboards einspielen. Die Ärzte können dann aus dem endgültigen Dataset visuelle Elemente erstellen.
Azure Healthcare APIs sind eine verwaltete, standardbasierte, konforme Schnittstelle für den Zugriff auf klinische Gesundheitsdaten. In diesem Szenario übergeben Azure Healthcare APIs ein FHIR-Paket mit den klinischen Daten an das EHR.
Szenariodetails
In diesem Artikel wird eine Lösung für genomische Analysen und Berichte vorgestellt. Die Prozesse und Ergebnisse eignen sich für medizinische Genauigkeitsszenarien oder Bereiche der medizinischen Versorgung, die die genetische Profilerstellung verwenden. Die Lösung bietet insbesondere einen Workflow für die klinische Genomik, der diese Aufgaben automatisiert:
- Übernehmen von Daten aus einem Sequenzer
- Verschieben der Daten durch sekundäre Analyse
- Bereitstellen von Ergebnissen, die Ärzte nutzen können
Aufgrund der zunehmenden Skalierungs-, Komplexitäts- und Sicherheitsanforderungen im Bereich Genomik ist dies ein idealer Kandidat für den Wechsel in die Cloud. Daher verwendet die Lösung neben Open-Source-Tools auch die Azure-Dienste. Bei diesem Ansatz werden die Sicherheits-, Leistungs- und Skalierbarkeitsfunktionen der Azure-Cloud genutzt:
- Die Forscher planen, in den nächsten Jahren Hunderttausende Genome zu sequenzieren. Das Speichern und Analysieren dieser Daten erfordert erhebliche Rechenleistung und Speicherkapazität. Mit Rechenzentren auf der ganzen Welt, die diese Ressourcen bereitstellen, kann Azure diese Anforderungen erfüllen.
- Azure ist für wichtige globale Sicherheits- und Datenschutzstandards wie bspw. ISO 27001 zertifiziert.
- Azure entspricht den Sicherheits- und Provenienzstandards, die gemäß dem HIPAA (Health Insurance Portability and Accountability Act) für personenbezogene Gesundheitsinformationen gelten.
Eine wichtige Komponente der Lösung ist Microsoft Genomics. Dieser Dienst bietet eine optimierte sekundäre Analyseimplementierung, die ein 30x Genom in wenigen Stunden verarbeiten kann. Standardtechnologien können demgegenüber mehrere Tage dauern.
Mögliche Anwendungsfälle
Diese Lösung eignet sich ideal für die Gesundheitsbranche. Sie eignet sich für viele Bereiche:
- Risikobewertung von Patienten im Hinblick auf Krebs
- Identifizieren von Patienten mit genetischen Markern, die eine Veranlagung für eine Krankheit darstellen
- Generieren von Patientenkohorten für Studien
Überlegungen
Für diese Lösung gelten im Hinblick auf das Microsoft Azure Well-Architected Framework die folgenden Überlegungen:
Verfügbarkeit
Die Vereinbarungen zum Servicelevel (Service Level Agreements, SLAs) der meisten Azure-Komponenten garantieren folgende Verfügbarkeiten:
- Mindestens 99,9 Prozent der Data Factory Pipelines werden garantiert erfolgreich ausgeführt.
- Die Azure Databricks SLA garantiert eine Verfügbarkeit von 99,95 Prozent.
- Microsoft Genomics bietet eine SLA-Verfügbarkeit von 99,99 Prozent für Workflowanforderungen.
- Blob Storage und Data Lake Storage sind Teil von Azure Storage, das Verfügbarkeit durch Redundanz bietet.
Skalierbarkeit
Die meisten Azure-Dienste sind standardmäßig skalierbar:
- Data Factory transformiert Daten im großen Umfang.
- Die Cluster in Azure Databricks werden nach Bedarf dimensioniert.
- Informationen zum Optimieren der Skalierbarkeit in Blob Storage finden Sie unter Checkliste zu Leistung und Skalierbarkeit für Blob Storage.
- Data Lake Storage kann Exabytes von Daten verwalten.
- Microsoft Genomics führt Workloads im Exabyte-Maßstab aus.
Sicherheit
Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.
Die Technologien in dieser Lösung erfüllen in Sachen Sicherheit die Anforderungen der meisten Unternehmen.
Richtlinien
Aufgrund der sensiblen Natur medizinischer Daten richten Sie Governance- und Sicherheitsfunktionen ein, indem Sie die Richtlinien in diesen Dokumenten befolgen:
- Sicherheit in Microsoft Cloud Adoption Framework für Azure
- Praktische Anleitung zur Entwicklung sicherer Lösungen für das Gesundheitswesen mit Microsoft Azure
- Zielzonen auf Unternehmensebene
Compliance
In diesen Dokumenten finden Sie Informationen zur Einhaltung der HIPAA- und HITECH-Act-Bestimmungen (HITECH: Health Information Technology for Economic and Clinical Health):
Komponenten dieser Lösung sind gemäß den Microsoft Azure Complianceangeboten im Umfang für HIPAA vorgesehen. Wenn Sie andere Komponenten ersetzen, überprüfen Sie sie zuerst anhand der Liste im Anhang dieses Dokuments.
Allgemeine Sicherheitsfeatures
Bestimmte Komponenten sichern Daten auch auf andere Weise:
Azure Databricks bietet viele Tools zum Schutz Ihrer Netzwerkinfrastruktur und -daten. Beispiele hierfür sind Zugriffssteuerungslisten, Geheimnisse und keine öffentliche IP-Adresse (NPIP).
Blob Storage unterstützt die Speicherdienstverschlüsselung (Storage Service Encryption, SSE), die Daten vor dem Speichern automatisch verschlüsselt. Blob Storage bietet darüber hinaus viele weitere Möglichkeiten zum Schutz von Daten und Netzwerken.
Data Lake Storage bietet Zugriffssteuerung. Das Modell unterstützt diese Arten von Steuerelementen:
- Was ist die rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) für Azure-Ressourcen?
- POSIX-Zugriffssteuerungslisten (ACLs; Portable Operating System Interface)
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
Mit den meisten Azure-Diensten können Sie Ihre Kosten senken, denn Sie bezahlen nur für das, was Sie auch verwenden:
- Bei Data Factory bestimmt Ihr Aktivitätsausführungsvolumen die Kosten.
- Azure Databricks bietet viele Ebenen, Workloads und Tarife, mit denen Sie Kosten minimieren können.
- Die Kosten für Blob Storage hängen von den Datenredundanzoptionen und dem Volumen ab.
- Bei Data Lake Storage hängen die Preise von vielen Faktoren ab: Ihrem Namespacetyp, der Speicherkapazität und der Auswahl der Dienstebene.
- Bei Microsoft Genomics hängt die Gebühr von der Anzahl der Gigabases ab, die jeder Workflow verarbeitet.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautoren:
- Wylie Graham | Senior Program Manager
- Matt Hansen | Senior Cloud Solution Architect
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
- Microsoft Genomics: Häufig gestellte Fragen
- Starter Kit für den Genomics-Schnellstart
- Burrows-Wheeler Aligner
- Toolkit für die Genomanalyse
Zugehörige Ressourcen
Vollständig bereitstellbare Architekturen:
Data Factory Lösungen
- Automatisierte Enterprise BI-Instanz
- [Hybrid ETL mit Azure Data Factory][Hybrid ETL mit Azure Data Factory]
- Replizieren und Synchronisieren von Mainframedaten in Azure
Analytics-Lösungen
- Data Warehousing und Analysen
- Verarbeitung und Analysen von räumlichen Daten
- Pipeline zur Datenstromverarbeitung mit Azure Databricks