Lösningsidé
Om du vill att vi utökar den här artikeln med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du berätta för GitHub Feedback!
Den här arkitekturen visar en säker forskningsmiljö som är avsedd att ge forskare åtkomst till känsliga data med högre kontroll och dataskydd. Den här artikeln gäller för organisationer som är bundna av regelefterlevnad eller andra strikta säkerhetskrav.
Potentiella användningsfall
Den här arkitekturen skapades ursprungligen för forsknings institutioner för högre utbildning med HIPAA-krav. Den här designen kan dock användas i alla branscher som kräver isolering av data för forskningsperspektiv. Några exempel är:
- Branscher som bearbetar reglerade data enligt NIST-krav
- Medicinska center samarbetar med interna eller externa forskare
- Bankväsende och ekonomi
Genom att följa riktlinjerna kan du behålla fullständig kontroll över dina forskningsdata, ha en uppdelning av uppgifter och uppfylla strikta standarder för regelefterlevnad samtidigt som du samarbetar mellan de typiska roller som ingår i en forskningsorienterad arbetsbelastning. dataägare, forskare och godkännare.
Arkitektur
Dataflöde
Dataägare laddar upp datauppsättningar till ett offentligt bloblagringskonto. Data krypteras med hjälp av Microsoft-hanterade nycklar.
Data Factory använder en utlösare som börjar kopiera den uppladdade datauppsättningen till en specifik plats (importsökväg) på ett annat lagringskonto med säkerhetskontroller. Lagringskontot kan bara nås via en privat slutpunkt. Dessutom används den av tjänstens huvudnamn med begränsade behörigheter. Data Factory tar bort den ursprungliga kopian, vilket gör datauppsättningen oföränderlig.
Forskare får åtkomst till den säkra miljön via ett strömmande program som använder Azure Virtual Desktop som en privilegierad jumpbox.
Datamängden i det säkra lagringskontot presenteras för de datavetenskaps-VM:ar som etableras i en säker nätverksmiljö för forskningsarbete. En stor del av dataförberedelserna görs på de virtuella datorerna.
Den säkra miljön har Azure Machine Learning som kan komma åt datauppsättningen via en privat slutpunkt för användare för AML-funktioner, till exempel för att träna, distribuera, automatisera och hantera maskininlärningsmodeller. Nu skapas modeller som uppfyller regelmässiga riktlinjer. Alla modelldata deidentifieras genom att personlig information tas bort.
Modeller eller deidentifierade data sparas på en separat plats på den säkra lagringen (exportsökvägen). När nya data läggs till i exportsökvägen utlöses en logikapp. I den här arkitekturen ligger logikappen utanför den säkra miljön eftersom inga data skickas till logikappen. Den enda funktionen är att skicka meddelanden och starta den manuella godkännandeprocessen.
Appen startar en godkännandeprocess som begär en granskning av data som ska exporteras i kö. De manuella granskarna ser till att känsliga data inte exporteras. Efter granskningsprocessen godkänns eller nekas data.
Anteckning
Om ett godkännandesteg inte krävs vid exfiltrering kan logikappsteget utelämnas.
Om deidentifierade data godkänns skickas de till den Data Factory instansen.
Data Factory flyttar data till det offentliga lagringskontot i en separat container så att externa forskare kan få åtkomst till sina exporterade data och modeller. Alternativt kan du etablera ett annat lagringskonto i en lägre säkerhetsmiljö.
Komponenter
Den här arkitekturen består av flera Azure-molntjänster som skalar resurser efter behov. Tjänsterna och deras roller beskrivs nedan. Länkar till produktdokumentation för att komma igång med dessa tjänster finns i Nästa steg.
Kärnkomponenter för arbetsbelastningar
Här är huvudkomponenterna som flyttar och bearbetar forskningsdata.
Microsoft Data Science Virtual Machine (DSVM): Virtuella datorer som är konfigurerade med verktyg som används för dataanalys och maskininlärning.
Azure Machine Learning: Används för att träna, distribuera, automatisera och hantera maskininlärningsmodeller samt för att hantera allokering och användning av ML beräkningsresurser.
Azure Machine Learning Compute: Ett kluster med noder som används för att träna och testa maskininlärnings- och AI-modeller. Beräkningen allokeras på begäran baserat på ett alternativ för automatisk skalning.
Azure Blob Storage: Det finns två instanser. Den offentliga instansen används för att tillfälligt lagra data som överförs av dataägare. Dessutom lagras deidentifierade data efter modellering i en separat container. Den andra instansen är privat. Den tar emot tränings- och testdatauppsättningarna Machine Learning som används av träningsskripten. Storage som en virtuell enhet på varje nod i ett Machine Learning Compute-kluster.
Azure Data Factory: Flyttar automatiskt data mellan lagringskonton med olika säkerhetsnivåer för att säkerställa uppdelning av uppgifter.
Azure Virtual Desktop används som en jumpbox för att få åtkomst till resurserna i den säkra miljön med strömmande program och ett fullständigt skrivbord efter behov. Alternativt kan du använda Azure Bastion. Men ha en tydlig förståelse för skillnaderna i säkerhetskontroll mellan de två alternativen. Virtual Desktop har vissa fördelar:
- Möjlighet att strömma en app som VSCode för att köra notebook-datorer mot machine learning-beräkningsresurserna.
- Möjlighet att begränsa kopiera, klistra in och skärmdumpar.
- Stöd för Azure Active Directory autentisering till DSVM.
Azure Logic Apps automatiskt arbetsflöde med lite kod för att utveckla både utlösar-och lanseringsdelen av den manuella godkännandeprocessen.
Hanteringskomponenter för hållning
Dessa komponenter övervakar kontinuerligt arbetsbelastningens och miljöns position. Syftet är att identifiera och minimera risker så snart de upptäcks.
Microsoft Defender for Cloud används för att utvärdera implementeringens övergripande säkerhetsstatus och tillhandahålla en attestationsmekanism för regelefterlevnad. Problem som hittades tidigare under granskningar eller utvärderingar kan upptäckas tidigt. Använd funktioner för att spåra förloppet, till exempel säkerhetspoäng och efterlevnadspoäng.
Microsoft Sentinel är en lösning för säkerhetsinformation och händelsehantering (SIEM) och soar-lösning (security orchestration automated response). Du kan centralt visa loggar och aviseringar från olika källor och dra nytta av avancerad AI- och säkerhetsanalys för att identifiera, jaga, förhindra och svara på hot.
Azure Monitor ger observerbarhet i hela miljön. Visa mått, aktivitetsloggar och diagnostikloggar från de flesta av dina Azure-resurser utan att lägga till konfiguration. Hanteringsverktyg, till exempel de i Microsoft Defender för moln, push-meddelanden med loggdata till Azure Monitor.
Styrningskomponenter
- Azure Policy hjälper till att genomdriva organisationsstandarder och utvärdera efterlevnad i stor skala.
Överväganden
Säkerhet
Det huvudsakliga målet med den här arkitekturen är att tillhandahålla en säker och betrodd forskningsmiljö som strikt begränsar exfiltrering av data från det skyddade området.
Nätverkssäkerhet
Azure-resurser som används för att lagra, testa och träna datauppsättningar för forskning etableras i en säker miljö. Den miljön är en Azure Virtual Network (VNet) som har regler för nätverkssäkerhetsgrupper (NSG:er) för att begränsa åtkomsten, främst:
Inkommande och utgående åtkomst till det offentliga Internet och inom det virtuella nätverket.
Åtkomst till och från specifika tjänster och portar. Den här arkitekturen blockerar till exempel alla portintervall utom de som krävs för Azure-tjänster (till exempel Azure Monitor). En fullständig lista över tjänsttaggar och motsvarande tjänster finns här.
Dessutom accepteras åtkomst från VNet med Azure Virtual Desktop (AVD) på portar som är begränsade till godkända åtkomstmetoder. All annan trafik nekas. Jämfört med den här miljön är det andra virtuella nätverket (med AVD) relativt öppet.
Den huvudsakliga bloblagringen i den säkra miljön är utanför det offentliga Internet. Det är endast tillgängligt i det virtuella nätverket via privata slutpunktsanslutningar och Azure Storage Brandväggar. Den används för att begränsa de nätverk som klienter kan ansluta till Azure-filresurser från.
Den säkra miljön har Azure Machine Learning som kan komma åt datauppsättningen via en privat slutpunkt.
För Azure-tjänster som inte kan konfigureras effektivt med privata slutpunkter eller för att tillhandahålla tillståndskänslig paketinspektion kan du överväga att använda Azure Firewall eller en virtuell nätverksinstallation från tredje part( NVA).
Identitetshantering
Blob Storage-åtkomsten är via rollbaserade åtkomstkontroller (RBAC) i Azure.
Azure Virtual Desktop stöder Azure AD-autentisering till DSVM.
Data Factory använder hanterad identitet för att komma åt data från bloblagringen. DSVM:er använder också hanterad identitet för reparationsåtgärder.
Datasäkerhet
För att skydda vilodata krypteras alla Azure Storage med Microsoft-hanterade nycklar med hjälp av stark kryptografi.
Alternativt kan du använda kund hanterade nycklar. Nycklarna måste lagras i ett hanterat nyckelarkiv. I den här Azure Key Vault distribueras i den säkra miljön för att lagra hemligheter som krypteringsnycklar och certifikat. Key Vault nås via en privat slutpunkt av resurserna i det säkra virtuella nätverket.
Saker att tänka på i samband med styrning
Aktivera Azure Policy framtvinga standarder och tillhandahålla automatiserad reparation för att se till att resurser efterlever specifika principer. Principerna kan tillämpas på en projektprenumeration eller på hanteringsgruppsnivå som en enskild princip eller som en del av ett regelinitiativ.
I den här arkitekturen tillämpades Azure Policy gästkonfiguration på alla virtuella datorer i omfånget. Principen kan granska operativsystem och datorkonfiguration för de virtuella datorerna för datavetenskap.
VM-avbildning
De virtuella datorerna för datavetenskap kör anpassade basavbildningar. För att skapa basavbildningen rekommenderar vi starkt tekniker som Azure Image Builder. På så sätt kan du skapa en upprepningsbar avbildning som kan distribueras när det behövs.
Basavbildningen kan behöva uppdateringar, till exempel ytterligare binärfiler. Dessa binärfiler ska laddas upp till den offentliga bloblagringen och flöda genom den säkra miljön, ungefär som datauppsättningarna laddas upp av dataägare.
Ytterligare överväganden
De flesta forskningslösningar är tillfälliga arbetsbelastningar och behöver inte vara tillgängliga under längre perioder. Den här arkitekturen är utformad som en distribution i en region med tillgänglighetszoner. Om affärskraven kräver högre tillgänglighet kan du replikera den här arkitekturen i flera regioner. Du skulle behöva andra komponenter, till exempel global lastbalanserare och distributör för att dirigera trafik till alla dessa regioner. Som en del av din återställningsstrategi rekommenderas det starkt att du samlar in och skapar en kopia av den anpassade basavbildningen med Azure Image Builder.
Storleken och typen för de virtuella datorerna för datavetenskap bör vara lämpliga för den typ av arbete som utförs. Den här arkitekturen är avsedd att stödja ett enda forskningsprojekt och skalbarheten uppnås genom att ändra storlek och typ för de virtuella datorerna och de val som görs för beräkningsresurser som är tillgängliga för AML.
Kostnaden för DSVM:er beror på valet av den underliggande VM-serien. Eftersom arbetsbelastningen är tillfällig rekommenderas förbrukningsplanen för logikappresursen. Använd priskalkylatorn för Azure för att beräkna kostnader baserat på den beräknade storleksändringen av de resurser som behövs.