Düzenlenen veriler için güvenli araştırma ortamı

Veri Bilimi Sanal Makineleri
Machine Learning
Data Factory

Çözüm fikri

bizi görmek isterseniz, olası kullanım durumları, alternatif hizmetler, uygulama değerlendirmeleri veya fiyatlandırma kılavuzu gibi daha fazla bilgi için bu makaleyi genişlettikten sonra GitHub geri bildirimdebulunun!

Bu mimaride, araştırmacıların hassas verilere daha yüksek düzeyde denetim ve veri koruması altına erişmesine imkan tanımak amaçlanan güvenli bir araştırma ortamı gösterilmektedir. Bu makale, mevzuat uyumluluğuyla veya diğer katı güvenlik gereksinimleriyle bağlantılı kuruluşlar için geçerlidir.

Olası kullanım örnekleri

Bu mimari, HIPAA gereksinimlerine sahip daha yüksek eğitim araştırması kurumları için oluşturulmuştur. Ancak, bu tasarım, araştırma perspektifleri için veri yalıtımı gerektiren herhangi bir sektör içinde kullanılabilir. Bazı örnekler:

  • NıST gereksinimlerine göre düzenlenen verileri işleyen sektörler
  • Tıp Merkezleri iç veya dış araştırmacılar ile işbirliği
  • Bankacılık ve finans

Kılavuzu izleyerek, araştırma verilerinizin tam denetimini koruyabilir, görev ayrımı yapabilir ve bir araştırma odaklı iş yüküne dahil olan tipik roller arasında işbirliği sağlarken katı mevzuat uyumluluk standartlarını karşılayabilirsiniz. veri sahipleri, araştırmacılar ve onaylayanlar.

Mimari

Güvenli araştırma ortamının diyagramı.

Veri akışı

  1. Veri sahipleri veri kümelerini ortak bir BLOB depolama hesabına yükler. Veriler, Microsoft tarafından yönetilen anahtarlar kullanılarak şifrelenir.

  2. Data Factory, karşıya yüklenen veri kümesinin güvenlik denetimlerine sahip başka bir depolama hesabındaki belirli bir konuma (içeri aktarma yolu) kopyalanmasını Başlatan bir tetikleyiciyi kullanır. Depolama hesabına yalnızca özel bir uç nokta üzerinden erişilebilir. Ayrıca, sınırlı izinlere sahip bir hizmet sorumlusu tarafından erişilir. Data Factory, veri kümesini sabit hale getiren orijinal kopyayı siler.

  3. Araştırmacılar, Azure sanal masaüstü 'Nü ayrıcalıklı bir geçiş kutusu olarak kullanan bir akış uygulaması aracılığıyla güvenli ortama erişir.

  4. Güvenli depolama hesabındaki veri kümesi, araştırma çalışması için güvenli bir ağ ortamında sağlanan veri bilimi VM 'lerine sunulur. Veri hazırlığının büyük bölümü bu VM 'lerde yapılır.

  5. güvenli ortamda, makine öğrenimi modellerini eğitme, dağıtma, otomatikleştirin ve yönetmek gibi AML yetenekler için kullanıcılara özel bir uç nokta aracılığıyla erişebilen Azure Machine Learning işlem vardır. Bu noktada, düzenleme kurallarını karşılayan modeller oluşturulur. Tüm model verileri, kişisel bilgiler kaldırılarak belirlenir.

  6. Modeller veya veri azaltma verileri, güvenli depolama (dışarı aktarma yolu) üzerinde ayrı bir konuma kaydedilir. Dışarı aktarma yoluna yeni veriler eklendiğinde bir mantıksal uygulama tetiklenir. Mantıksal uygulamaya hiçbir veri gönderilmediğinden, Bu mimaride mantıksal uygulama güvenli ortamın dışındadır. Tek işlevi, bildirim göndermek ve el ile onay işlemini başlatmektir.

    Uygulama, verilmek üzere sıraya alınmış verilerin gözden geçirilmesini isteyen bir onay işlemi başlatır. El ile gözden geçirenler, hassas verilerin aktarıldığından emin olun. İnceleme işleminden sonra veriler onaylanır ya da reddedilir.

    Not

    Bir onay adımı, bir onaylama işlemi için gerekli değilse, mantıksal uygulama adımı atlanabilir.

  7. Belirlenen veriler onaylanırsa, Data Factory örneğine gönderilir.

  8. Data Factory, dış araştırmacıların verilen verilerine ve modellerine erişmesine izin vermek için verileri ayrı bir kapsayıcıda ortak depolama hesabına taşıtır. Alternatif olarak, daha düşük bir güvenlik ortamında başka bir depolama hesabı da sağlayabilirsiniz.

Bileşenler

Bu mimari, kaynakları gereksinimlerinize göre ölçeklendirerek çeşitli Azure bulut hizmetlerinden oluşur. Hizmetler ve rolleri aşağıda açıklanmıştır. Bu hizmetleri kullanmaya başlamak için ürün belgelerinin bağlantıları için bkz. sonraki adımlar.

Çekirdek iş yükü bileşenleri

Araştırma verilerini taşımak ve işlemek için temel bileşenler aşağıda verilmiştir.

  • Microsoft veri bilimi sanal makinesi (DSVM): Veri analizi ve makine öğrenimi için kullanılan araçlarla yapılandırılmış VM 'Ler.

  • Azure Machine Learning: makine öğrenimi modellerini eğitme, dağıtma, otomatikleştirin ve yönetmek ve ML işlem kaynaklarının ayırmayı ve kullanımını yönetmek için kullanılır.

  • Azure Machine Learning işlem: makine öğrenimi ve aı modellerini eğlendirmek ve test etmek için kullanılan düğümlerin kümesi. İşlem, bir otomatik ölçeklendirme seçeneğine göre isteğe bağlı olarak ayrılır.

  • Azure Blob depolama: İki örnek vardır. Ortak örnek, veri sahipleri tarafından karşıya yüklenen verileri geçici olarak depolamak için kullanılır. Ayrıca, ayrı bir kapsayıcıda modelleme sonrasında tanımsız verileri depolar. İkinci örnek özeldir. eğitim betikleri tarafından kullanılan Machine Learning eğitim ve test veri kümelerini alır. Depolama, Machine Learning işlem kümesinin her bir düğümüne bir sanal sürücü olarak bağlanır.

  • Azure Data Factory: , Görevlerin ayrılmasını sağlamak için verileri farklı güvenlik düzeylerinin depolama hesapları arasında otomatik olarak taşılardır.

  • Azure sanal masaüstü , gereken şekilde akış uygulamaları ve tam bir masaüstü ile güvenli ortamdaki kaynaklara erişim kazanmak için bir geçiş kutusu olarak kullanılır. Alternatif olarak, Azure savunma 'yı da kullanabilirsiniz. Ancak, iki seçenek arasındaki güvenlik denetimi farklılıklarının net bir şekilde anlaşılmasına sahiptir. Sanal masaüstünde bazı avantajlar vardır:

    • Makine öğrenimi işlem kaynaklarına karşı not defterlerini çalıştırmak için VSCode gibi bir uygulamayı akışla yapabilme özelliği.
    • Kopyalama, yapıştırma ve Ekran yakalamalarını sınırlama yeteneği.
    • dsvm 'ye Azure Active Directory kimlik doğrulaması desteği.
  • Azure Logic Apps , el ile onay sürecinin tetikleme ve yayın bölümlerini geliştirmek için otomatik düşük kod iş akışı sağlar.

Posture yönetimi bileşenleri

Bu bileşenler, iş yükünün ve ortamının durumunu sürekli olarak izler. Amaç, her keşfedildiğinde riskleri keşfetmek ve azaltmaları.

  • Bulut Için Microsoft Defender , uygulamanın genel güvenlik durumunu değerlendirmek ve mevzuat uyumluluğu için bir kanıtlama mekanizması sağlamak üzere kullanılır. Daha önce denetim veya değerlendirme sırasında bulunan sorunlar erken keşfedilebilir. Güvenli puan ve Uyumluluk puanı gibi ilerlemeyi izlemek için özellikleri kullanın.

  • Microsoft Sentinel , güvenlik bilgileri ve olay yönetimi (SIEM) ve güvenlik Orchestration otomatik yanıtı (Soar) çözümüdür. Çeşitli kaynaklardan günlük ve uyarıları merkezi olarak görüntüleyebilir, gelişmiş AI ve güvenlik analizlerinden yararlanarak tehditleri algılayabilir, ele geçirebilir, engelleyebilir ve yanıtlayabilir.

  • Azure izleyici , tüm ortamınız genelinde Observability sağlar. Ek yapılandırma olmadan Azure kaynaklarınızın çoğundan ölçümleri, etkinlik günlüklerini ve tanılama günlüklerini görüntüleyin. Bulut için Microsoft Defender 'daki gibi yönetim araçları, günlük verilerini de Azure Izleyici 'ye gönderir.

İdare bileşenleri

  • Azure ilkesi , kurumsal standartları zorunlu kılmaya ve üstün ölçekli uyumluluğu değerlendirmenize yardımcı olur.

Dikkat edilmesi gerekenler

Güvenlik

Bu mimarinin ana amacı, güvenli alandan verilerin ayıklanmasını tamamen sınırlayan güvenli ve güvenilir bir araştırma ortamı sağlamaktır.

Ağ güvenliği

Araştırma veri kümelerini depolamak, test etmek ve eğitemak için kullanılan Azure kaynakları güvenli bir ortamda sağlanır. Bu ortam, erişimi kısıtlamak için ağ güvenlik grupları (NSG 'ler) kuralları olan bir Azure sanal ağı (VNet), genellikle:

  • Genel internet ve VNet içinde gelen ve giden erişim.

  • Belirli hizmetlere ve bağlantı noktalarına erişim. Örneğin, bu mimari, Azure Hizmetleri (Azure Izleyici gibi) için gerekli olanlar dışında tüm bağlantı noktası aralıklarını engeller. Hizmet etiketlerinin tam listesi ve ilgili hizmetler buradabulunabilir.

    Ayrıca, onaylanan erişim yöntemleriyle sınırlı bağlantı noktalarında Azure sanal masaüstü (AVD) ile VNet 'ten erişim kabul edilir, diğer tüm trafik reddedilir. Bu ortamla karşılaştırıldığında, diğer VNet (AVD ile) görece açıktır.

Güvenli ortamdaki ana BLOB depolama alanı genel İnternet 'ten kapalıdır. yalnızca, VNet içinden özel uç nokta bağlantıları ve Azure Depolama güvenlik duvarları aracılığıyla erişilebilir. İstemcilerin Azure dosya paylaşımlarına bağlanabildiği ağları sınırlandırmak için kullanılır.

güvenli ortamda özel bir uç nokta aracılığıyla veri kümesine erişebilen Azure Machine Learning işlem vardır.

Özel uç noktalarla etkin bir şekilde yapılandırılanmayacak veya durum bilgisi olmayan paket incelemesi sağlayan Azure hizmetleri için, Azure Güvenlik Duvarı veya bir üçüncü taraf ağ sanal gereci (NVA) kullanmayı düşünün.

Kimlik yönetimi

BLOB depolama erişimi, Azure rol tabanlı erişim denetimleri (RBAC) ile yapılır.

Azure sanal masaüstü, DSVM 'de Azure AD kimlik doğrulamasını destekler.

Data Factory, blob depolamadan verilere erişmek için yönetilen kimlik kullanır. DSVM'ler düzeltme görevleri için yönetilen kimlik de kullanır.

Veri güvenliği

Verilerin güvenliğini sağlamak için tüm Azure Depolama güçlü şifreleme kullanılarak Microsoft tarafından yönetilen anahtarlarla şifrelenir.

Alternatif olarak, müşteri tarafından yönetilen anahtarları kullanabilirsiniz. Anahtarlar yönetilen bir anahtar deposuna depolanmış olması gerekir. Bu mimaride Azure Key Vault şifreleme anahtarları ve sertifikalar gibi gizli dizileri depolamak için güvenli ortamda dağıtılır. Key Vault sanal ağ kaynakları tarafından özel uç nokta üzerinden erişilir.

İdare ile ilgili önemli noktalar

Standartları Azure İlkesi sağlamak ve belirli ilkeler için kaynakları uyumlu hale getirmek için otomatik düzeltme sağlamak için bu ilkeleri etkinleştirin. İlkeler bir proje aboneliğine veya yönetim grubu düzeyinde tek bir ilke olarak veya mevzuat girişiminin bir parçası olarak uygulanabilir.

Örneğin, bu mimaride Azure İlkesi kapsamındaki tüm VM'lere Konuk Yapılandırması uygulanmıştır. İlke, Veri Bilimi VM'leri için işletim sistemlerini ve makine yapılandırmasını denetlenebilir.

VM görüntüsü

Veri Bilimi VM'leri özelleştirilmiş temel görüntüler çalıştırıyor. Temel görüntüyü oluşturmak için Azure Görüntü Oluşturucu gibi teknolojileri kesinlikle öneririz. Bu şekilde gerektiğinde dağıtılabilir bir tekrarlanabilir görüntü oluşturabilirsiniz.

Temel görüntü için ek ikili dosyalar gibi güncelleştirmeler gerekir. Bu ikili dosyalar genel blob depolama alanına yük olmalı ve veri kümeleri veri sahipleri tarafından karşıya yüklendiklerine benzer şekilde güvenli ortamdan akmalıdır.

Diğer önemli noktalar

Çoğu araştırma çözümü geçici iş yükleridir ve uzun süreler boyunca kullanılabilir olması gerekmektedir. Bu mimari, kullanılabilirlik alanlarıyla tek bölgeli bir dağıtım olarak tasarlanmıştır. İş gereksinimleri daha yüksek kullanılabilirlik talep ediyorsa, bu mimariyi birden çok bölgede çoğaltın. Trafiği tüm bu bölgelere yönlendiren küresel yük dengeleyici ve dağıtımcı gibi diğer bileşenlere ihtiyacınız olabilir. Kurtarma stratejinizin bir parçası olarak, Azure Image Builder ile özelleştirilmiş temel görüntünün bir kopyasını yakalamak ve oluşturmak kesinlikle önerilir.

Veri Bilimi VM'lerinin boyutu ve türü, gerçekleştirilen iş stiline uygun olması gerekir. Bu mimari tek bir araştırma projesini desteklemeye yöneliktir ve vm'lerin boyutunu, türünü ve vm'ler için kullanılabilir işlem kaynakları için yapılan seçimleri ayarlayarak ölçeklenebilirlik AML.

DSVM'lerin maliyeti, temel alınan VM serisinin seçimine bağlıdır. İş yükü geçici olduğundan, Mantıksal Uygulama kaynağı için tüketim planı önerilir. Gereken kaynakların tahmini boyutunu temel alarak maliyetleri tahmin etmek için Azure fiyatlandırma hesaplayıcısını kullanın.

Sonraki adımlar