Deze architectuur toont een veilige onderzoeksomgeving die onderzoekers toegang biedt tot gevoelige gegevens op een hoger niveau van controle en gegevensbeveiliging. Dit artikel is van toepassing voor organisaties die zijn gebonden aan naleving van regelgeving of andere strikte beveiligingsvereisten.
Deze architectuur is oorspronkelijk gemaakt voor onderzoeksinstellingen voor het hoger onderwijs met HIPAA-vereisten. Dit ontwerp kan echter worden gebruikt in elke branche die isolatie van gegevens vereist voor onderzoeksperspectief. Voorbeelden zijn:
- Branches die gereguleerde gegevens verwerken volgens NIST-vereisten
- Medische datacenters die samenwerken met interne of externe onderzoekers
- Bankieren en financiën
Door de richtlijnen te volgen, kunt u de volledige controle houden over uw onderzoeksgegevens, taken scheiden en voldoen aan strenge regelgevingsnormen en tegelijkertijd samenwerking bieden tussen de gebruikelijke rollen die betrokken zijn bij een onderzoeksgerichte workload; gegevenseigenaren, onderzoekers en goedkeurders.
Architectuur
Gegevensstroom
Gegevenseigenaren uploaden gegevenssets naar een openbaar blob-opslagaccount. De gegevens worden versleuteld met behulp van door Microsoft beheerde sleutels.
Data Factory maakt gebruik van een trigger waarmee wordt gestart met het kopiëren van de geüploade gegevensset naar een specifieke locatie (importpad) in een ander opslagaccount met beveiligingscontroles. Het opslagaccount kan alleen worden bereikt via een privé-eindpunt. Het wordt ook gebruikt door een service-principal met beperkte machtigingen. Data Factory wordt de oorspronkelijke kopie verwijderd, waardoor de gegevensset onveranderbaar is.
Onderzoekers hebben toegang tot de beveiligde omgeving via een streamingtoepassing met behulp van Azure Virtual Desktop als een bevoorrechte jumpbox.
De gegevensset in het beveiligde opslagaccount wordt gepresenteerd aan de data science-VM's die zijn ingericht in een beveiligde netwerkomgeving voor onderzoekswerkzaamheden. Veel van de gegevensvoorbereiding wordt uitgevoerd op deze VM's.
De beveiligde omgeving heeft Azure Machine Learning compute die toegang heeft tot de gegevensset via een privé-eindpunt voor gebruikers voor AML-mogelijkheden, zoals het trainen, implementeren, automatiseren en beheren van machine learning-modellen. Op dit moment worden modellen gemaakt die voldoen aan wettelijke richtlijnen. Alle modelgegevens worden geïdentificeerd door persoonlijke gegevens te verwijderen.
Modellen of geïdentificeerde gegevens worden opgeslagen op een afzonderlijke locatie in de beveiligde opslag (exportpad). Wanneer er nieuwe gegevens worden toegevoegd aan het exportpad, wordt er een logische app geactiveerd. In deze architectuur valt de logische app buiten de beveiligde omgeving omdat er geen gegevens naar de logische app worden verzonden. De enige functie is het verzenden van meldingen en het starten van het handmatige goedkeuringsproces.
De app start een goedkeuringsproces voor het aanvragen van een beoordeling van gegevens die in de wachtrij staan om te worden geëxporteerd. De handmatige beoordelaars zorgen ervoor dat gevoelige gegevens niet worden geëxporteerd. Na het beoordelingsproces worden de gegevens goedgekeurd of geweigerd.
Notitie
Als er geen goedkeuringsstap is vereist voor exfiltratie, kan de logische app-stap worden weggelaten.
Als de geïdentificeerde gegevens zijn goedgekeurd, worden deze verzonden naar de Data Factory instantie.
Data Factory verplaatst de gegevens naar het openbare opslagaccount in een afzonderlijke container, zodat externe onderzoekers toegang hebben tot hun geëxporteerde gegevens en modellen. U kunt ook een ander opslagaccount inrichten in een lagere beveiligingsomgeving.
Onderdelen
Deze architectuur bestaat uit verschillende Azure-cloudservices die resources naar behoefte schalen. De services en hun rollen worden hieronder beschreven. Zie Gerelateerde koppelingen voor koppelingen naar productdocumentatie om aan de slag te gaan met deze services.
Kernworkloadonderdelen
Hier volgen de belangrijkste onderdelen voor het verplaatsen en verwerken van onderzoeksgegevens.
Microsoft Data Science Virtual Machine (DSVM) - VM's die zijn geconfigureerd met hulpprogramma's die worden gebruikt voor gegevensanalyse en machine learning.
Azure Machine Learning - Wordt gebruikt voor het trainen, implementeren, automatiseren en beheren machine learning modellen en voor het beheren van de toewijzing en het gebruik van ML rekenbronnen.
Azure Machine Learning Compute - Een cluster van knooppunten die worden gebruikt voor het trainen en testen machine learning AI-modellen. De rekenkracht wordt op aanvraag toegewezen op basis van een optie voor automatisch schalen.
Azure Blob Storage: er zijn twee exemplaren. Het openbare exemplaar wordt gebruikt om de gegevens die door gegevenseigenaren zijn geüpload tijdelijk op te slaan. Daarnaast worden de geïdentificeerde gegevens na het modelleren op een afzonderlijke container op opslag. Het tweede exemplaar is privé. Het ontvangt de trainings- en testgegevenssets van Machine Learning die door de trainingsscripts worden gebruikt. Storage wordt als een virtueel station aan elk knooppunt van een Machine Learning Compute-cluster.
Azure Data Factory: verplaatst automatisch gegevens tussen opslagaccounts van verschillende beveiligingsniveaus om scheiding van taken te garanderen.
Azure Virtual Desktop wordt gebruikt als jumpbox om toegang te krijgen tot de resources in de beveiligde omgeving met streamingtoepassingen en een volledig bureaublad, naar behoefte. U kunt ook Azure Bastion. Maar hebt u een duidelijk inzicht in de verschillen in beveiligingsbeheer tussen de twee opties. Virtual Desktop heeft een aantal voordelen:
- De mogelijkheid om een app zoals VSCode te streamen om notebooks uit te voeren op de machine learning rekenbronnen.
- Mogelijkheid om het kopiëren, plakken en vastleggen van schermafbeeldingen te beperken.
- Ondersteuning voor Azure Active Directory verificatie bij DSVM.
Azure Logic Apps biedt een geautomatiseerde werkstroom met weinig code voor het ontwikkelen van zowel de trigger- als de releasegedeelten van het handmatige goedkeuringsproces.
Onderdelen voor postuurbeheer
Deze onderdelen bewaken continu de postuur van de workload en de omgeving ervan. Het doel is om risico's te ontdekken en te beperken zodra ze worden ontdekt.
Azure Security Center wordt gebruikt om het algehele beveiligingsstatus van de implementatie te evalueren en een attestation-mechanisme te bieden voor naleving van regelgeving. Problemen die eerder zijn aangetroffen tijdens controles of evaluaties, kunnen vroegtijdig worden ontdekt. Gebruik functies om de voortgang bij te houden, zoals de secure score en de nalevingsscore.
Azure Sentinel is Security Information and Event Management oplossing (SIEM) en Security Orchestration Automated Response (SOAR). U kunt logboeken en waarschuwingen uit verschillende bronnen centraal weergeven en profiteren van geavanceerde AI- en beveiligingsanalyses om bedreigingen te detecteren, te zoeken, te voorkomen en te reageren.
Azure Monitor biedt waarneembaarheid in uw hele omgeving. Bekijk metrische gegevens, activiteitenlogboeken en diagnostische logboeken van de meeste Azure-resources zonder dat er een configuratie is toegevoegd. Beheerhulpprogramma's, zoals die in Azure Security Center, pushen ook logboekgegevens naar Azure Monitor.
Governanceonderdelen
- Azure Policy helpt bij het afdwingen van organisatiestandaarden en het beoordelen van naleving op schaal.
Beveiliging
Het belangrijkste doel van deze architectuur is om een veilige en vertrouwde onderzoeksomgeving te bieden die de exfiltratie van gegevens uit het beveiligde gebied strikt beperkt.
Netwerkbeveiliging
Azure-resources die worden gebruikt voor het opslaan, testen en trainen van onderzoeksgegevenssets, worden ingericht in een beveiligde omgeving. Deze omgeving is een Azure Virtual Network (VNet) met regels voor netwerkbeveiligingsgroepen (NSG's) om de toegang te beperken, voornamelijk:
Binnenkomende en uitgaande toegang tot het openbare internet en binnen het VNet.
Toegang tot en van specifieke services en poorten. Deze architectuur blokkeert bijvoorbeeld alle poortbereiken, behalve de poorten die zijn vereist voor Azure-services (zoals Azure Monitor). Een volledige lijst met servicetags en de bijbehorende services vindt u hier.
Bovendien wordt de toegang van VNet met Azure Virtual Desktop (AVD) tot poorten die zijn beperkt tot goedgekeurde toegangsmethoden geaccepteerd. Al het andere verkeer wordt geweigerd. In vergelijking met deze omgeving is het andere VNet (met AVD) relatief open.
De belangrijkste blobopslag in de beveiligde omgeving is van het openbare internet. Het is alleen toegankelijk binnen het VNet via privé-eindpuntverbindingen en Azure Storage Firewalls. Het wordt gebruikt om de netwerken te beperken van waaruit clients verbinding kunnen maken met Azure-bestands shares.
De beveiligde omgeving heeft een Azure Machine Learning die toegang heeft tot de gegevensset via een privé-eindpunt.
Voor Azure-services die niet effectief kunnen worden geconfigureerd met privé-eindpunten of om stateful pakketinspecties te bieden, kunt u overwegen om Azure Firewall of een virtueel netwerkapparaat (NVA) van derden te gebruiken.
Identiteitsbeheer
Toegang tot Blob Storage is via op rollen gebaseerd toegangsbesturingselementen (RBAC) van Azure.
Azure Virtual Desktop ondersteunt Azure AD-verificatie voor DSVM.
Data Factory maakt gebruik van beheerde identiteit voor toegang tot gegevens uit de blobopslag. DSVM's maken ook gebruik van een beheerde identiteit voor hersteltaken.
Gegevensbeveiliging
Om data-at-rest te beveiligen, worden Azure Storage versleuteld met door Microsoft beheerde sleutels met behulp van sterke cryptografie.
U kunt ook door de klant beheerde sleutels gebruiken. De sleutels moeten worden opgeslagen in een beheerd sleutelopslag. In deze architectuur wordt Azure Key Vault geïmplementeerd in de beveiligde omgeving voor het opslaan van geheimen zoals versleutelingssleutels en certificaten. Key Vault is toegankelijk via een privé-eindpunt door de resources in het beveiligde VNet.
Overwegingen voor governance
Schakel Azure Policy standaarden af te dwingen en automatisch herstel te bieden om resources te laten voldoen aan specifieke beleidsregels. Het beleid kan worden toegepast op een projectabonnement of op beheergroepsniveau als één beleid of als onderdeel van een regelgevingsinitiatief.
In deze architectuur is bijvoorbeeld Azure Policy-configuratie toegepast op alle VM's binnen het bereik. Het beleid kan besturingssystemen en machineconfiguratie voor de Data Science VM's controleren.
VM-afbeelding
Op de Data Science VM's worden aangepaste basisafbeeldingen uitgevoerd. Voor het bouwen van de basisafbeelding raden we technologieën als Azure Image Builder. Op deze manier kunt u een herhaalbare afbeelding maken die indien nodig kan worden geïmplementeerd.
De basisafbeelding moet mogelijk worden bijgewerkt, zoals aanvullende binaire bestanden. Deze binaire bestanden moeten worden geüpload naar de openbare blobopslag en door de beveiligde omgeving stromen, net zoals de gegevenssets worden geüpload door gegevenseigenaren.
Andere overwegingen
De meeste onderzoeksoplossingen zijn tijdelijke workloads en hoeven niet beschikbaar te zijn voor langere perioden. Deze architectuur is ontworpen als een implementatie met één regio met beschikbaarheidszones. Als de bedrijfsvereisten hogere beschikbaarheid vragen, repliceert u deze architectuur in meerdere regio's. U hebt andere onderdelen nodig, zoals wereldwijde load balancer en distributor om verkeer naar al deze regio's te kunnen doorverdelen. Als onderdeel van uw herstelstrategie wordt het ten zeerste aanbevolen om een kopie van de aangepaste basiskopie met Azure Image Builder maken.
De grootte en het type van de Data Science VM's moeten geschikt zijn voor de stijl van het werk dat wordt uitgevoerd. Deze architectuur is bedoeld ter ondersteuning van één onderzoeksproject en de schaalbaarheid wordt bereikt door de grootte en het type van de VM's aan te passen en de keuzen voor rekenbronnen die beschikbaar zijn voor AML.
De kosten van DSVM's zijn afhankelijk van de keuze van de onderliggende VM-serie. Omdat de workload tijdelijk is, wordt het verbruiksplan aanbevolen voor de logische app-resource. Gebruik de Azure-prijscalculator om de kosten te schatten op basis van de geschatte benodigde resources.