Zabezpečené výzkumné prostředí pro regulovaná data

Data Science Virtual Machine
Machine Learning
Data Factory

Tato architektura ukazuje zabezpečené výzkumné prostředí, které výzkumníkům umožňuje přístup k citlivým datům na vyšší úrovni kontroly a ochrany dat. Tento článek se vztahuje na organizace, které jsou vázány dodržováním právních předpisů nebo jinými striktními požadavky na zabezpečení.

Tato architektura byla původně vytvořena pro výzkumné instituce vyššího vzdělávání s požadavky HIPAA. Tento návrh se ale může použít v jakémkoli odvětví, které vyžaduje izolaci dat z hlediska výzkumu. Možné příklady:

  • Odvětví, která zpracovávají regulovaná data podle požadavků NIST
  • Zdravotnická centra ve spolupráci s interními nebo externími výzkumníky
  • Bankovnictví a finance

Podle pokynů si můžete zachovat úplnou kontrolu nad výzkumnými daty, oddělit povinnosti a splňovat přísné standardy dodržování právních předpisů a zároveň zajistit spolupráci mezi typickými rolemi, které jsou součástí úlohy orientované na výzkum. vlastníci dat, výzkumníci a schvalovatelé.

Architektura

Diagram zabezpečeného výzkumného prostředí

Tok dat

  1. Vlastníci dat nahrává datové sady do veřejného účtu úložiště objektů blob. Data se šifrují pomocí klíčů spravovaných Microsoftem.

  2. Data Factory trigger, který zahájí kopírování nahrané datové sady do konkrétního umístění (cesta importu) v jiném účtu úložiště s bezpečnostními prvky. K účtu úložiště je možné se dostat pouze prostřednictvím privátního koncového bodu. Přistupuje k němu také objekt služby s omezenými oprávněními. Data Factory odstraní původní kopii, takže datová sada je neměnná.

  3. Výzkumníci přistupuje k zabezpečenému prostředí prostřednictvím aplikace streamování, která používá Azure Virtual Desktop jako privilegovaný jump box.

  4. Datová sada v zabezpečeném účtu úložiště se prezentuje virtuálním počítačům pro datové vědy, které jsou zřízené v zabezpečeném síťovém prostředí pro výzkumnou práci. Velká část přípravy dat se provádí na těchto virtuálních počítači.

  5. Zabezpečené prostředí má výpočetní Azure Machine Learning, který má přístup k datové sadě prostřednictvím privátního koncového bodu pro uživatele, aby mohli využívat funkce AML, jako je trénování, nasazování, automatizace a správa modelů strojového učení. V tomto okamžiku se vytvoří modely, které splňují zákonné pokyny. Odebráním osobních údajů se deidentifikují všechna data modelu.

  6. Modely nebo deidentifikovaná data se ukládají do samostatného umístění v zabezpečeném úložišti (cesta exportu). Když se do cesty exportu přidávají nová data, aktivuje se aplikace logiky. V této architektuře je aplikace logiky mimo zabezpečené prostředí, protože do aplikace logiky se nesídí žádná data. Jedinou funkcí je odeslat oznámení a zahájit proces ručního schvalování.

    Aplikace spustí schvalovací proces s žádostí o ověření dat, která jsou zařazená do fronty k exportu. Ruční kontroloři zajišťují, že se citlivá data neexportují. Po procesu revize se data buď schválí, nebo zamítou.

    Poznámka

    Pokud se krok schválení při exfiltraci nevyžaduje, je možné krok aplikace logiky vynechat.

  7. Pokud jsou deidentifikovaná data schválena, budou odeslána do Data Factory instance.

  8. Data Factory data do veřejného účtu úložiště v samostatném kontejneru, aby externí výzkumníci umožnili přístup k exportovaných datům a modelům. Alternativně můžete zřídit jiný účet úložiště v prostředí s nižším zabezpečením.

Komponenty

Tato architektura se skládá z několika cloudových služeb Azure, které škálovat prostředky podle potřeby. Služby a jejich role jsou popsány níže. Odkazy na produktovou dokumentaci pro zahájení práce s těmito službami najdete v tématu Související odkazy.

Základní komponenty úloh

Tady jsou základní komponenty, které přesouvat a zpracovávat výzkumná data.

  • Microsoft Data Science Virtual Machine (DSVM) – virtuální počítače nakonfigurované s nástroji používanými pro analýzu dat a strojové učení.

  • Azure Machine Learning   – Slouží k trénování, nasazování, automatizaci a správě modelů strojového učení a ke správě přidělování a používání ML výpočetních prostředků.

  • Azure Machine Learning Compute   – Cluster uzlů, které se používají k trénování a testování modelů strojového učení a AI. Výpočetní prostředky se přidělují na vyžádání na základě možnosti automatického škálování.

  • Azure Blob Storage – Existují dvě instance. Veřejná instance se používá k dočasnému uložení dat nahraných vlastníky dat. Kromě toho ukládá deidentifikovaná data po modelování do samostatného kontejneru. Druhá instance je soukromá. Přijímá trénovací a testovací datové sady z Machine Learning, které jsou používány trénovacími skripty. Storage se připojí jako virtuální jednotka ke každému uzlu clusteru Machine Learning Compute.

  • Azure Data Factory – automaticky přesouvá data mezi účty úložiště s různými úrovněmi zabezpečení, aby se zajistilo oddělení povinností.

  • Azure Virtual Desktop   se podle potřeby používá jako jump box k získání přístupu k prostředkům v zabezpečeném prostředí pomocí aplikací streamování a plného desktopu. Alternativně můžete použít Azure Bastion. Jasně ale porozumit rozdílům mezi těmito dvěma možnostmi v bezpečnostních kontrolách. Virtual Desktop má několik výhod:

    • Možnost streamovat aplikaci, jako je VSCode, ke spouštění poznámkových bloků s výpočetními prostředky strojového učení
    • Možnost omezit kopírování, vkládání a zachytávání snímku obrazovky
    • Podpora ověřování Azure Active Directory pro DSVM.
  • Azure Logic Apps poskytuje automatizovaný pracovní postup s nízkým kódem pro vývoj částí procesu ručního schvalování pro aktivaci i vydání.

Komponenty pro správu postoje

Tyto komponenty nepřetržitě monitorují stav úlohy a jejího prostředí. Účelem je zjišťovat a zmírnit rizika ihned po jejich zjištění.

  • Azure Security Center se používá k vyhodnocení celkového bezpečnostního postoje implementace a poskytnutí mechanismu ověřování pro dodržování právních předpisů. Problémy, které byly dříve zjištěny během auditů nebo hodnocení, je možné zjistit v rané fázi. Pomocí funkcí můžete sledovat průběh, jako je bezpečnostní skóre a skóre dodržování předpisů.

  • Azure Sentinel je Security Information and Event Management (SIEM) a automatická reakce na orchestraci zabezpečení (SOAR). Můžete centrálně zobrazit protokoly a výstrahy z různých zdrojů a využít pokročilé analýzy AI a zabezpečení k detekci, proaktivnímu vyhledávání, prevenci a reagování na hrozby.

  • Azure Monitor poskytuje pozorovatelnost v celém prostředí. Zobrazení metrik, protokolů aktivit a diagnostických protokolů z většiny vašich prostředků Azure bez přidání konfigurace Nástroje pro správu, například nástroje v Azure Security Center, také předá data protokolu do Azure Monitor.

Součásti zásad správného řízení

  • Azure Policy pomáhá vynucovat standardy organizace a vyhodnocovat dodržování předpisů ve velkém měřítku.

Zabezpečení

Hlavním cílem této architektury je poskytnout zabezpečené a důvěryhodné výzkumné prostředí, které striktně omezuje exfiltraci dat ze zabezpečené oblasti.

Zabezpečení sítě

Prostředky Azure, které se používají k ukládání, testování a trénování sad výzkumných dat, jsou zřízeny v zabezpečeném prostředí. Toto prostředí je virtuální Virtual Network Azure, která má pravidla skupin zabezpečení sítě (NSG), která omezují přístup, zejména:

  • Příchozí a odchozí přístup k veřejnému internetu a v rámci virtuální sítě.

  • Přístup ke konkrétním službám a portům a z těchto služeb. Tato architektura například blokuje všechny rozsahy portů s výjimkou rozsahů vyžadovaných pro služby Azure (například Azure Monitor). Úplný seznam značek služeb a odpovídajících služeb najdete tady.

    Přístup z virtuální sítě pomocí služby Azure Virtual Desktop (AVD) na portech omezených na schválené metody přístupu je také přijat, veškerý ostatní provoz se zamítá. V porovnání s tímto prostředím je druhá virtuální síť (s AVD) poměrně otevřená.

Hlavní úložiště objektů blob v zabezpečeném prostředí je mimo veřejný internet. Je přístupný jenom v rámci virtuální sítě prostřednictvím připojení privátních koncových bodů a Azure Storage firewallů. Slouží k omezení sítí, ze kterých se klienti mohou připojovat ke sdílených složek Azure.

Zabezpečené prostředí má Azure Machine Learning, která má přístup k datové sadě prostřednictvím privátního koncového bodu.

V případě služeb Azure, které není možné efektivně nakonfigurovat pomocí privátních koncových bodů nebo poskytovat stavovou kontrolu paketů, zvažte použití služby Azure Firewall nebo síťového virtuálního zařízení třetí strany.

Správa identit

Přístup ke službě Blob Storage je prostřednictvím řízení přístupu na základě role (RBAC) v Azure.

Azure Virtual Desktop podporuje ověřování Azure AD pro DSVM.

Data Factory používá spravovanou identitu pro přístup k datům z úložiště objektů blob. DsVM také používá spravovanou identitu pro úlohy nápravy.

Zabezpečení dat

K zabezpečení ostatních osobních dat se Azure Storage šifrují pomocí klíčů spravovaných Microsoftem pomocí silné kryptografie.

Alternativně můžete použít klíče spravované zákazníkem. Klíče musí být uložené ve spravovaném úložiště klíčů. V této architektuře se Azure Key Vault zabezpečeném prostředí pro ukládání tajných kódů, jako jsou šifrovací klíče a certifikáty. Key Vault k prostředkům v zabezpečené virtuální síti přistupuje prostřednictvím privátního koncového bodu.

Požadavky na zásady správného řízení

Povolte Azure Policy pro vymáhání standardů a zajištění automatizované nápravy, aby byly prostředky v souladu s pravidly pro konkrétní zásady. Zásady je možné použít pro předplatné projektu nebo na úrovni skupiny pro správu jako jednu zásadu nebo jako součást regulativní iniciativy.

Například v této architektuře se Azure Policy konfigurace hostů použila na všechny virtuální počítače v oboru. Tato zásada může auditovat operační systémy a konfiguraci počítačů pro virtuální počítače pro datové vědy.

Image virtuálního počítače

Virtuální počítače pro datové vědy spouštějí přizpůsobené základní image. Pokud chcete sestavit základní image, důrazně doporučujeme používat technologie, jako je Azure image Builder. Tímto způsobem můžete vytvořit opakovanou bitovou kopii, kterou můžete v případě potřeby nasadit.

Základní image může potřebovat aktualizace, například další binární soubory. Tyto binární soubory by se měly nahrát do veřejného úložiště objektů BLOB a procházet prostřednictvím zabezpečeného prostředí, podobně jako datové sady, které vlastníci dat nahráli.

Další důležité informace

Většina řešení pro výzkum je dočasné úlohy a není nutné je k dispozici pro rozšířené tečky. Tato architektura je navržená jako nasazení v jedné oblasti se zónami dostupnosti. Pokud obchodní požadavky vyžadují vyšší dostupnost, replikujte tuto architekturu do více oblastí. Budete potřebovat další komponenty, jako je globální nástroj pro vyrovnávání zatížení a distributora, ke směrování provozu do všech těchto oblastí. V rámci vaší strategie obnovení se důrazně doporučuje zachytit a vytvořit kopii přizpůsobené základní Image pomocí Azure image Builder.

Velikost a typ virtuálních počítačů pro datové vědy by měly odpovídat stylu práce, kterou provádíte. Tato architektura je určená pro podporu jednoho výzkumného projektu a škálovatelnost se dosahuje úpravou velikosti a typu virtuálních počítačů a možností, které jsou k dispozici pro výpočetní prostředky AML.

Náklady na DSVMs závisí na výběru základní řady virtuálních počítačů. Vzhledem k tomu, že úloha je dočasná, doporučuje se plán spotřeby pro prostředek aplikace logiky. Pomocí cenové kalkulačky Azure   můžete odhadnout náklady na základě odhadované velikosti potřebných prostředků.