Bearbeiten

Sichere Forschungsumgebung für regulierte Daten

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

Diese Architektur stellt eine sichere Forschungsumgebung dar, die Forschern den Zugriff auf vertrauliche Daten mit einem höheren Maß an Kontrolle und Datenschutz ermöglichen soll. Dieser Artikel richtet sich an Unternehmen, die an die Einhaltung gesetzlicher Bestimmungen oder andere strenge Sicherheitsanforderungen gebunden sind.

Aufbau

Diagramm: Sichere Forschungsumgebung

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Datenbesitzer laden Datasets in ein öffentliches Blobspeicherkonto hoch. Die Daten werden mit von Microsoft verwalteten Schlüsseln verschlüsselt.

  2. Azure Data Factory verwendet einen Trigger, der das Kopieren des hochgeladenen Datasets an einen bestimmten Speicherort (Importpfad) auf einem anderen Speicherkonto mit Sicherheitskontrollelementen startet. Das Speicherkonto kann nur über einen privaten Endpunkt erreicht werden. Außerdem erfolgt der Zugriff durch einen Dienstprinzipal mit eingeschränkten Berechtigungen. Data Factory löscht die ursprüngliche Kopie, wodurch das Dataset unveränderlich wird.

  3. Forscher greifen über eine Streaminganwendung auf die sichere Umgebung zu, indem sie Azure Virtual Desktop als privilegierte Jumpbox verwenden.

  4. Das Dataset im sicheren Speicherkonto wird den Data Science-VMs zur Verfügung gestellt, die in einer sicheren Netzwerkumgebung für die Forschungsarbeit bereitgestellt werden. Ein Großteil der Datenvorbereitung erfolgt auf diesen VMs.

  5. Die sichere Umgebung verfügt über Azure Machine Learning Compute, das über einen privaten Endpunkt für Benutzer auf das Dataset zugreifen kann, um AML-Funktionen (Azure Machine Learning) wie das Trainieren, Bereitstellen, Automatisieren und Verwalten von Machine Learning-Modellen zu ermöglichen. An diesem Punkt werden Modelle erstellt, die gesetzliche Bestimmungen erfüllen. Alle Modelldaten werden durch Entfernen persönlicher Informationen anonymisiert.

  6. Modelle oder anonymisierte Daten werden an einem separaten Speicherort im sicheren Speicher (Exportpfad) gespeichert. Wenn dem Exportpfad neue Daten hinzugefügt werden, wird eine Logik-App ausgelöst. In dieser Architektur befindet sich die Logik-App außerhalb der sicheren Umgebung, da keine Daten an die Logik-App gesendet werden. Die einzige Funktion besteht im Senden von Benachrichtigungen und im Starten des manuellen Genehmigungsprozesses.

    Die App startet einen Genehmigungsprozess und fordert eine Überprüfung der Daten an, die für den Export in die Warteschlange gestellt werden. Die manuellen Prüfer stellen sicher, dass keine vertraulichen Daten exportiert werden. Nach dem Überprüfungsprozess werden die Daten entweder genehmigt oder verweigert.

    Hinweis

    Wenn bei der Exfiltration kein Genehmigungsschritt erforderlich ist, kann der Logik-App-Schritt weggelassen werden.

  7. Wenn die anonymisierten Daten genehmigt sind, werden sie an die Data Factory-Instanz gesendet.

  8. Data Factory verschiebt die Daten in einem separaten Container in das öffentliche Speicherkonto, um externen Forschern den Zugriff auf ihre exportierten Daten und Modelle zu ermöglichen. Alternativ können Sie auch ein anderes Speicherkonto in einer Umgebung mit geringerer Sicherheit bereitstellen.

Komponenten

Diese Architektur besteht aus mehreren Azure-Diensten, die Ressourcen nach Bedarf skalieren. Die Dienste und ihre Aufgaben werden im Folgenden beschrieben. Links zur Produktdokumentation für die ersten Schritte mit diesen Diensten finden Sie unter Nächste Schritte.

Kernkomponenten der Workload

Hier folgen die Kernkomponenten, die Forschungsdaten verschieben und verarbeiten.

  • Azure Data Science Virtual Machine (DSVM): VMs, die mit Tools für die Datenanalyse und für maschinelles Lernen konfiguriert sind.

  • Azure Machine Learning: Wird zum Trainieren, Bereitstellen, Automatisieren und Verwalten von Machine Learning-Modellen sowie zum Verwalten der Zuordnung und Verwendung von Machine Learning-Computeressourcen verwendet.

  • Azure Machine Learning Compute: Ein Cluster von Knoten, die zum Trainieren und Testen von Machine Learning- und KI-Modellen verwendet werden. Die Computeressourcen werden nach Bedarf basierend auf einer automatischen Skalierungsoption zugeordnet.

  • Azure Blob-Speicher: Es gibt zwei Instanzen. Die öffentliche Instanz wird verwendet, um die von Datenbesitzern hochgeladenen Daten vorübergehend zu speichern. Außerdem werden anonymisierte Daten nach der Modellierung in einem separaten Container gespeichert. Die zweite Instanz ist privat. Es empfängt die von Trainingsskripts verwendeten Trainings- und Testdatasets von Machine Learning. Storage wird als virtuelles Laufwerk auf jedem Knoten eines Machine Learning Compute-Clusters eingebunden.

  • Azure Data Factory: Verschiebt Daten automatisch zwischen Speicherkonten unterschiedlicher Sicherheitsebenen, um die Aufgabentrennung sicherzustellen.

  • Azure Virtual Desktop Wird als Jumpbox verwendet, um bei Bedarf Zugriff auf die Ressourcen in der sicheren Umgebung mit Streaminganwendungen und einem vollständigen Desktop zu erhalten. Alternativ können Sie auch Azure Bastion verwenden. Sie sollten jedoch die Unterschiede bei der Sicherheitskontrolle zwischen den beiden Optionen eindeutig verstehen. Virtual Desktop bietet einige Vorteile:

    • Möglichkeit zum Streamen einer App wie Microsoft Visual Studio Code zum Ausführen von Notebooks für die Machine Learning-Computeressourcen.
    • Möglichkeit zum Einschränken von Kopier- und Einfügevorgängen sowie von Bildschirmaufnahmen.
    • Unterstützung für die Microsoft Entra-Authentifizierung bei DSVM
  • Azure Logic Apps: Stellt einen automatisierten Workflow mit wenig Code bereit, um sowohl die Auslöse- als auch Freigabe-Teile des manuellen Genehmigungsprozesses zu entwickeln.

Statusverwaltungskomponenten

Diese Komponenten überwachen kontinuierlich den Workloadstatus und dessen Umgebung. Der Zweck besteht im Erkennen und Mindern von Risiken, sobald sie entdeckt werden.

  • Microsoft Defender für Cloud: Wird verwendet, um den Gesamtsicherheitsstatus der Implementierung zu bewerten und einen Nachweismechanismus für die Einhaltung gesetzlicher Bestimmungen zu bieten. Probleme, die zuvor bei Überwachungen oder Bewertungen gefunden wurden, können frühzeitig erkannt werden. Verwenden Sie Features zum Nachverfolgen des Fortschritts, z. B. Sicherheits- und Compliancebewertung.

  • Microsoft Sentinel ist eine Lösung für die Verwaltung von sicherheitsrelevanten Informationen und Ereignissen (Security Information and Event Management, SIEM) und die Sicherheitsorchestrierung mit automatisierter Reaktion (Security Orchestration, Automation and Response, SOAR). Sie können Protokolle und Warnungen aus verschiedenen Quellen zentral anzeigen und die Vorteile der fortschrittlichen KI und Sicherheitsanalyse nutzen, um Bedrohungen zu erkennen, zu verfolgen, zu verhindern und darauf zu reagieren.

  • Azure Monitor ermöglicht die Gewinnung von Einblicken für Ihre gesamte Umgebung. Zeigen Sie Metriken, Aktivitätsprotokolle und Diagnoseprotokolle von den meisten Ihrer Azure-Ressourcen ohne zusätzliche Konfiguration an. Verwaltungstools, z. B. in Microsoft Defender für Cloud, pushen ebenfalls Protokolldaten an Azure Monitor.

Governancekomponenten

  • Azure Policy unterstützt Sie bei der Durchsetzung von Organisationsstandards und der Bewertung der Compliance im großen Stil.

Alternativen

  • Diese Lösung verwendet Data Factory, um die Daten in einem separaten Container in das öffentliche Speicherkonto zu verschieben und externen Forschern den Zugriff auf die exportierten Daten und Modelle zu ermöglichen. Alternativ können Sie auch ein anderes Speicherkonto in einer Umgebung mit geringerer Sicherheit bereitstellen.
  • Diese Lösung nutzt Azure Virtual Desktop als Ausgangspunkt, um mit Streaminganwendungen und einem vollständigen Desktop Zugriff auf die Ressourcen der sicheren Umgebung zu erhalten. Alternativ können Sie auch Azure Bastion verwenden. Virtual Desktop bietet jedoch einige Vorteile, z. B. die Möglichkeit, eine App zu streamen, Kopier- /Einfügevorgänge und Bildschirmaufnahmen zu begrenzen und die AAD-Authentifizierung zu unterstützen. Für das lokale Offlinetraining können Sie ggf. auch eine Point-to-Site-VPN-Verbindung konfigurieren. Dadurch sparen Sie auch die Kosten, die bei der Verwendung mehrerer VMs für Arbeitsstationen anfallen.
  • Um ruhende Daten zu schützen, verschlüsselt diese Lösung den gesamten Azure-Speicher mit von Microsoft verwalteten Schlüsseln unter Verwendung sicherer Kryptografieverfahren. Alternativ können Sie auch kundenseitig verwaltete Schlüssel verwenden. Die Schlüssel müssen in einem verwalteten Schlüsselspeicher gespeichert werden.

Szenariodetails

Mögliche Anwendungsfälle

Diese Architektur wurde ursprünglich für Forschungseinrichtungen im Hochschulbereich erstellt, die die Anforderungen des Health Insurance Portability and Accountability Act (HIPAA) erfüllen müssen. Dieses Konzept kann jedoch in jeder Branche verwendet werden, in der eine Isolation von Daten für Forschungszwecke erforderlich ist. Beispiele hierfür sind:

  • Branchen, die regulierte Daten gemäß den Anforderungen des National Institute of Standards and Technology (NIST) verarbeiten
  • Medizinische Zentren, die mit internen oder externen Forschern zusammenarbeiten
  • Bank- und Finanzwesen

Wenn Sie die Anleitung befolgen, können Sie die volle Kontrolle über Ihre Forschungsdaten behalten, eine Aufgabentrennung vornehmen und strenge gesetzliche Bestimmungen einhalten, während Sie gleichzeitig die Zusammenarbeit zwischen den typischen Rollen, die an einem forschungsorientierten Workload beteiligt sind, sicherstellen: Datenbesitzer, Forscher und genehmigende Personen.

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Das Hauptziel dieser Architektur ist es, eine sichere und vertrauenswürdige Forschungsumgebung zu schaffen, die die Exfiltration von Daten aus dem sicheren Bereich streng begrenzt.

Netzwerksicherheit

Azure-Ressourcen, die zum Speichern, Testen und Trainieren von Forschungsdatasets verwendet werden, werden in einer sicheren Umgebung bereitgestellt. Bei dieser Umgebung handelt es sich um ein virtuelles Netzwerk von Azure, das über Regeln für Netzwerksicherheitsgruppen (NSGs) verfügt, um den Zugriff hauptsächlich für Folgendes zu beschränken:

  • Eingehender und ausgehender Zugriff auf das öffentliche Internet und innerhalb des virtuellen Netzwerks.

  • Zugriff auf und von bestimmten Diensten und Ports. Diese Architektur blockiert z. B. alle Ports, mit Ausnahme der Ports, die für Azure-Dienste erforderlich sind (wie Azure Monitor). Eine vollständige Liste der Diensttags und der entsprechenden Dienste finden Sie unter Diensttags für virtuelle Netzwerke.

    Auch der Zugriff vom virtuellen Netzwerk mit Azure Virtual Desktop (AVD) auf Ports, die auf genehmigte Zugriffsmethoden beschränkt sind, wird akzeptiert, während sämtlicher anderer Datenverkehr verweigert wird. Im Vergleich zu dieser Umgebung ist das andere virtuelle Netzwerk (mit AVD) relativ offen.

Der Hauptblobspeicher in der sicheren Umgebung hat keine Verbindung mit dem öffentlichen Internet. Der Zugriff ist nur innerhalb des virtuellen Netzwerks über private Endpunktverbindungen und Azure Storage-Firewalls möglich. Er wird verwendet, um die Netzwerke einzuschränken, von denen aus Clients Verbindungen mit Azure-Dateifreigaben herstellen können.

Bei dieser Architektur wird die auf Anmeldeinformationen basierende Authentifizierung für den Hauptdatenspeicher in der sicheren Umgebung verwendet. In diesem Fall werden die Verbindungsinformationen wie die Abonnement-ID und die Tokenautorisierung in einem Schlüsseltresor gespeichert. Eine weitere Möglichkeit besteht darin, identitätsbasierten Datenzugriff zu erstellen. Dabei wird Ihr Azure-Konto verwendet, um zu überprüfen, ob Sie Zugriff auf den Storage-Dienst haben. Im Szenario mit identitätsbasiertem Datenzugriff werden keine Anmeldeinformationen für die Authentifizierung gespeichert. Ausführliche Informationen zur Verwendung des identitätsbasierten Datenzugriffs finden Sie unter Verbindung zum Speicher über identitätsbasierten Datenzugriff.

Der Computecluster kann ausschließlich innerhalb des virtuellen Netzwerks über das Azure Private Link-Ökosystem und Dienstendpunkte/private Endpunkte kommunizieren, sodass keine öffentliche IP-Adresse für die Kommunikation verwendet wird. Stellen Sie sicher, dass Sie Keine öffentliche IP-Adresse aktivieren. Ausführliche Informationen zu diesem Feature, das sich derzeit in der Vorschauphase befindet (Stand: 7.03.2022), finden Sie unter Keine öffentliche IP-Adresse für Compute-Instanzen.

Die sichere Umgebung verwendet Azure Machine Learning Compute, um über einen privaten Endpunkt auf das Dataset zuzugreifen. Darüber hinaus kann Azure Firewall verwendet werden, um den ausgehenden Zugriff von Azure Machine Learning Compute zu steuern. Informationen zum Konfigurieren von Azure Firewall, um den Zugriff auf Azure Machine Learning Compute in einem Machine Learning-Arbeitsbereich zu steuern, finden Sie unter Konfigurieren von ein- und ausgehendem Netzwerkdatenverkehr.

Eine der Möglichkeiten zum Schützen einer Azure Machine Learning-Umgebung wird im Blogbeitrag zum Schützen einer Azure Machine Learning Service (AMLS)-Umgebung vorgestellt.

Für Azure-Dienste, die nicht effektiv mit privaten Endpunkten konfiguriert werden können oder keine Überprüfung zustandsbehafteter Pakete bieten, sollten Sie Azure Firewall oder ein virtuelles Netzwerkgerät eines Drittanbieters verwenden.

Identitätsverwaltung

Der Zugriff auf den Blobspeicher erfolgt über die rollenbasierte Zugriffssteuerung (RBAC) von Azure.

Azure Virtual Desktop unterstützt die Microsoft Entra-Authentifizierung bei DSVM.

Data Factory verwendet die verwaltete Identität für den Zugriff auf Daten aus dem Blobspeicher. DSVMs verwenden auch verwaltete Identitäten für Wartungstasks.

Datensicherheit

Um ruhende Daten zu schützen, wird der gesamte Azure-Speicher mit von Microsoft verwalteten Schlüsseln verschlüsselt, die sichere Kryptografieverfahren verwenden.

Alternativ können Sie auch kundenseitig verwaltete Schlüssel verwenden. Die Schlüssel müssen in einem verwalteten Schlüsselspeicher gespeichert werden. Bei dieser Architektur wird Azure Key Vault in der sicheren Umgebung bereitgestellt, um Geheimnisse wie Verschlüsselungsschlüssel und Zertifikate zu speichern. Der Zugriff auf Key Vault erfolgt über einen privaten Endpunkt durch die Ressourcen im sicheren virtuellen Netzwerk.

Governanceüberlegungen

Aktivieren Sie Azure Policy, um Standards zu erzwingen und automatisierte Wartungsmaßnahmen bereitzustellen, um Ressourcen in Übereinstimmung mit bestimmten Richtlinien zu bringen. Die Richtlinien können auf ein Projektabonnement oder auf der Ebene einer Verwaltungsgruppe als einzelne Richtlinie oder als Teil einer regulatorischen Initiative angewendet werden.

In dieser Architektur wurde z. B. die Azure Policy-Gastkonfiguration auf alle VMs im Geltungsbereich angewendet. Die Richtlinie kann Betriebssysteme und die Computerkonfiguration für die Data Science-VMs überwachen.

VM-Image

Die Data Science-VMs führen benutzerdefinierte Basisimages aus. Zum Erstellen des Basisimages empfehlen wir dringend Technologien wie Azure Image Builder. Auf diese Weise können Sie ein wiederholbares Image erstellen, das bei Bedarf bereitgestellt werden kann.

Das Basisimage benötigt möglicherweise Updates, z. B. zusätzliche Binärdateien. Diese Binärdateien sollten in den öffentlichen Blobspeicher hochgeladen werden und die sichere Umgebung durchlaufen, ähnlich wie die Datasets von Datenbesitzern hochgeladen werden.

Andere Aspekte

Bei den meisten Forschungslösungen handelt es sich um temporäre Workloads, die nicht über einen längeren Zeitraum hinweg verfügbar sein müssen. Diese Architektur ist als Bereitstellung in einer einzelnen Region mit Verfügbarkeitszonen konzipiert. Wenn die Geschäftsanforderungen eine höhere Verfügbarkeit erfordern, replizieren Sie diese Architektur in mehreren Regionen. Sie benötigen andere Komponenten, z. B. den globalen Lastenausgleich und den Verteiler, um Datenverkehr an alle diese Regionen weiterzuleiten. Im Rahmen Ihrer Wiederherstellungsstrategie wird dringend empfohlen, eine Kopie des benutzerdefinierten Basisimages mit Azure Image Builder zu erfassen und zu erstellen.

Größe und Typ der Data Science-VMs sollten dem Stil der ausgeführten Arbeit entsprechen. Diese Architektur soll ein einzelnes Forschungsprojekt unterstützen, und die Skalierbarkeit wird erreicht, indem Größe und Typ der virtuellen Computer sowie die für Azure Machine Learning verfügbaren Computeressourcen getroffenen Optionen angepasst werden.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Die Kosten für DSVMs hängen von der Wahl der zugrunde liegenden VM-Serie ab. Da die Workload temporär ist, wird der Verbrauchstarif für die Logik-App-Ressource empfohlen. Verwenden Sie den Azure-Preisrechner, um die Kosten basierend auf der geschätzten Dimensionierung der benötigten Ressourcen zu schätzen.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte