Bu makalede genomik analiz ve raporlama için bir çözüm sunar. Süreçler ve sonuçlar, duyarlıklı tıp senaryoları veya genetik profil oluşturma kullanan tıbbi bakım alanları için uygundur. Çözüm özellikle şu görevleri otomatikleştiren bir klinik genomiks iş akışı sağlar:
- Sıraleyiciden veri alma
- Verileri ikincil analiz aracılığıyla taşıma
- Klinisyenlerin tükettiği sonuçları sağlama
Genomiks'in büyüyen ölçek, karmaşıklık ve güvenlik gereksinimleri, onu buluta taşıma için ideal bir adaydır. Sonuç olarak çözüm, açık kaynak araçlarına ek olarak Azure bulut hizmetlerini de kullanır. Bu yaklaşım, Azure bulutlarının güvenlik, performans ve ölçeklenebilirlik özelliklerinden faydalanmaktadır:
- Bilim insanları önümüzdeki yıllarda yüz binlerce genom diziley yapmayı planlıyor. Bu verileri depolama ve analiz etme görevi, önemli miktarda işlem gücü ve depolama kapasitesi gerektirir. Dünyanın her yanında bu kaynakları sağlayan veri merkezleriyle Azure bu talepleri karşılar.
- Azure, ISO 27001 gibi başlıca küresel güvenlik ve gizlilik standartları için sertifikalandırılmıştır.
- Azure, Sağlık Sigortası Taşınabilirliği ve Sorumluluk Yasası'nın (HIPAA) kişisel sağlık bilgileri için kurduğu güvenlik ve kanıt standartlarıyla uyumludur.
Çözümün önemli bir bileşeni Microsoft Genomiks'tir. Bu hizmet, birkaç saat içinde 30 kat genom işley sunan iyileştirilmiş bir ikincil analiz uygulaması sunar. Standart teknolojiler günler sürer.
Olası kullanım örnekleri
Bu çözüm birçok alan için geçerlidir:
- Kanser için risk puanlama hastalarının
- Genetik işaretleyicileri olan ve onları hastalığa yatkın olan hastalarını tanımlama
- Çalışmalar için hasta kohortları oluşturma
Mimari
Diyagramda iki kutu vardır. İlki, sol tarafta düzenleme için Azure Data Factory etiketine sahip. İkinci kutuda Clinician görünümleri etiketi vardır. İlk kutu, verileri veya çeşitli Azure bileşenlerini temsil eden birkaç küçük kutu içerir. Oklar kutuları birbirine bağlar ve oklar üzerinde numaralı etiketler, belge metninde numaralı adımlara karşılık gelen adımlarla aynı olur. Kutuların arasında akan iki ok, Klinisyen görünümleri kutusunda biter. Bir ok, bir klinisyen simgesini gösterir. Diğer simge bir Power BI gösterir.
Bu mimarinin bir Visio dosyasını indirin.
Azure Data Factory iş akışının düzenlemesi için:
Data Factory örnek dosyayı Azure Blob Depolama'ya Depolama. Dosya FASTQ biçimindedir.
Microsoft Genomiks, dosya üzerinde ikincil analiz çalıştırır.
Microsoft Genomiks çıktıyı Blob Depolama biçimlerden birini kullanarak depolar:
- Değişken çağrı biçimi (VCF)
- Genomik VCF (GVCF)
Jupyter Notebook dosyasına açıklama ek açıklamalarını içerir. Not defteri, Azure Databricks.
Azure Data Lake Depolama açıklamalı dosyayı depolar.
Jupyter Notebook diğer veri kümeleriyle birleştirin ve verileri analiz eder. Not defteri, Azure Databricks.
Data Lake Depolama verileri depolar.
Azure Healthcare API'leri, verileri bir Hızlı Sağlık Hizmeti Birlikte Çalışma Kaynakları (FHIR) paketine paketler. Klinik veriler daha sonra hastanın elektronik sağlık kaydına (EHR) girer.
Klinisyenler sonuçları panolarda Power BI görüntüleme.
Bileşenler
Çözüm aşağıdaki bileşenleri kullanır:
Microsoft Genomiks
Microsoft Genomiks, sektörün en iyi uygulamalarını uygulayan verimli ve doğru bir genomiks işlem hattı sunar. Yüksek performanslı altyapısı şu görevler için iyileştirilmiştir:
- Büyük genomik verileri okuma
- Bunları birçok çekirdekte verimli bir şekilde işleme
- Sonuçları sıralama ve filtreleme
- Sonuçları çıkış dosyalarına yazma
Aktarım hızını en üst düzeye çıkarmak için bu altyapı bir Burrows-Wheeler Aligner (BWA) ve Genom Analysis Toolkit (GATK) HaplotypeCaller değişken çağıranı kullanır. Altyapı ayrıca standart genomiks işlem hatlarını da kullanan birkaç bileşen daha kullanır. Örnekler arasında yinelenen işaretleme, temel kalite puanı yeniden ölçeklendirme ve dizinleme yer aldı. Altyapı, birkaç saat içinde tek bir çok çekirdekli sunucu üzerinde tek bir genomik örneği işleyebiçir. İşleme ham okumalarla başlar. Hizalanmış okumalar ve değişken çağrılar üretir.
Dahili olarak, Microsoft Genomiks denetleyicisi sürecin şu yönlerini yönetir:
- Buluttaki makine havuzlarında genomların toplu işlerini dağıtma
- Gelen isteklerin kuyruğu bakımı
- İstekleri genomiks altyapısını çalıştıran sunuculara dağıtma
- Sunucuların performansını ve ilerlemesini izleme
- Sonuçları değerlendirme
- İşlemenin güvenli bir web hizmeti API'si arkasında, uygun ölçekte güvenilir ve güvenli bir şekilde çalışmasını sağlama
Microsoft Genomiks sonuçlarını üçüncül analiz ve makine öğrenmesi hizmetlerde kolayca kullanabilirsiniz. Microsoft Genomiks bir bulut hizmeti olduğundan donanım veya yazılımı yönetmeniz veya güncelleştirmeniz de gerek değildir.
Diğer bileşenler
Data Factory, farklı veri depolarından gelen verilerle çalışan bir tümleştirme hizmetidir. İş akışlarını düzenleme ve otomatikleştirme için bu tam olarak yönetilen, sunucusuz platformu kullanabilirsiniz. Özellikle, Data Factory işlem hatlarının bu çözümde Verileri Azure'a aktarması gerekir. Bir dizi işlem hattı daha sonra iş akışının her adımını tetikler.
Blob Depolama, büyük miktarlarda yapılandırılmamış veriler için iyileştirilmiş bulut nesne depolaması sunar. Bu senaryoda, Blob Depolama FASTQ dosyası için ilk giriş bölgesi sağlar. Bu hizmet ayrıca Microsoft Genomiks tarafından oluşturulan VCF ve GVCF dosyaları için çıkış hedefi olarak da işlev gösterir. Blob depolamada katmanlama Depolama, fastq dosyalarını işleme sonrasında uygun maliyetli uzun süreli depolamada arşivlemek için bir yol sağlar.
Azure Databricks bir veri analizi platformudur. Tam olarak yönetilen Spark kümeleri, çeşitli kaynaklardan gelen büyük veri akışlarını işler. Bu çözümde Azure Databricks, verilere not Jupyter Notebook, birleştirmesi ve çözümlemesi için gereken hesaplama kaynaklarını sağlar.
Data Lake Depolama, yüksek performanslı analiz iş yükleri için ölçeklenebilir ve güvenli bir veri gölüdir. Bu hizmet, yüzlerce gigabit aktarım hızını sürdürürken birden çok petabayt bilgi yönetebilir. Veriler yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Genellikle birden çok heterojen kaynaklardan gelir. Bu mimaride Data Lake Depolama, ek açıklamalı dosyalar ve birleştirilmiş veri kümeleri için son giriş bölgesi sağlar. Ayrıca aşağı akış sistemlerinin son çıkışa erişmelerini de sağlar.
Power BI, analiz bilgilerini görüntülemek için bir yazılım hizmetleri ve uygulama koleksiyonudur. Bağlanmak ve Power BI veri kaynaklarını görüntülemek için Power BI'i kullanabilirsiniz. Bu çözümde, panoları Power BI ile doldurmak için kullanılabilir. Klinisyenler daha sonra son veri kümesinden görseller oluşturabilir.
Azure Healthcare API'leri, klinik sağlık verilerine erişmek için yönetilen, standartlara dayalı ve uyumlu bir arabirimdir. Azure Healthcare API'lerini kullanarak Sağlık Mimarileri'nin başvuru mimarilerini ve uygulamalarını kullanabilirsiniz. Bu senaryoda, Azure sağlık API 'Leri, klinik verileri ile EHR 'ye bir FHıR paketi geçirir.
Dikkat edilmesi gerekenler
aşağıdaki önemli noktalar Microsoft Azure Well-Architected çerçevesiyle hizalanır ve bu çözüme uygulanır:
Kullanılabilirlik konusunda dikkat edilmesi gerekenler
Azure bileşenlerinin çoğu için hizmet düzeyi sözleşmeleri (SLA 'Lar) kullanılabilirliği garanti:
- Data Factory işlem hatlarının en az% 99,9 ' unun başarıyla çalıştırılması garanti edilir.
- Azure DATABRICKS SLA, yüzde 99,95 kullanılabilirliği garanti eder.
- Microsoft Genomiks, iş akışı istekleri için yüzde 99,99 kullanılabilirlik SLA 'sı sağlar.
- Blob Depolama ve Data Lake Storage, Azure Depolama 'nin bir parçasıdır ve bu da yedeklilik aracılığıyla kullanılabilirliksağlar.
Ölçeklenebilirlik konusunda dikkat edilmesi gerekenler
Birçok Azure hizmeti tasarıma göre ölçeklenebilir:
- Data Factory verileri ölçeklendirerek dönüştürür.
- Azure Databricks ' deki kümeler gerektiği şekilde yeniden boyutlandırılır.
- blob Depolama ölçeklenebilirliği iyileştirmek hakkında daha fazla bilgi için bkz. blob Depolama için performans ve ölçeklenebilirlik denetim listesi.
- Data Lake Storage, verilerin eksabaytlarca yönetebilir.
- Microsoft Genomikler, Exabyte ölçekli iş yüklerini çalıştırır.
Güvenlik konuları
Bu çözümdeki teknolojiler, çoğu şirketin güvenlik gereksinimlerini karşılar.
Yönergeler
Tıbbi verilerin hassas doğası nedeniyle, bu belgelerdeki yönergeleri izleyerek idare ve güvenlik sağlayın:
- Azure için Microsoft Bulut benimseme çerçevesindeki güvenlik
- Microsoft Azure kullanarak güvenli sistem durumu çözümleri tasarlamaya yönelik pratik kılavuz
- Enterprise ölçekli giriş bölgeleri
Mevzuata uyumluluk
HIPAA ile uyumlu ve ekonomik ve klinik sağlık (HITECH) Yasası için durum bilgisi teknolojisine yönelik bilgiler için bu belgelere bakın:
- HIPAA-Azure uyumluluğu
- Ekonomik ve klinik sağlık (HITECH) Yasası için sağlık sigortası taşınabilirlik ve Sorumluluk Yasası (HIPAA) sağlık bilgileri teknolojisi
bu çözümün bileşenleri, Microsoft Azure uyumluluk tekliflerinitemel alarak hıpaa kapsamında bulunur. Başka herhangi bir bileşeni yerine eklerseniz, önce bu belge ekinde bulunan listeye göre bunları doğrulayın.
Genel güvenlik özellikleri
Ayrıca, çeşitli bileşenler diğer yollarla verileri de güvenli hale getirin:
Azure Databricks ağ altyapısının ve verilerin güvenliğini sağlamak için birçok araç sağlar. Bunlara erişim denetim listeleri, gizlidiziler ve genel IP (NPIP) bulunmaz.
BLOB depolama, verileri depolamadan önce otomatik olarak şifreleyen depolama hizmeti şifrelemesini (SSE) destekler. Ayrıca, veri ve ağları korumak için birçok farklı yolsağlar.
Data Lake Storage erişim denetimi sağlar. Modeli bu denetim türlerini destekler:
- Azure rol tabanlı erişim denetimi (RBAC)
- Taşınabilir Işletim sistemi arabirimi (POSIX) erişim denetim listeleri (ACL 'Ler)
Fiyatlandırma
Çoğu Azure hizmeti sayesinde maliyetleri yalnızca kullandığınız kadar ödeyerek azaltabilirsiniz:
- Data Factory, etkinlik çalıştırma birimi maliyeti belirler.
- Azure Databricks maliyetleri en aza indirmenize yardımcı olmak için birçok katman, iş yükü ve fiyatlandırma planı sunar .
- Blob Depolama maliyetleri, veri artıklığı seçeneklerine ve hacmine bağlıdır.
- Data Lake Storage, fiyatlandırma birçok etkene bağlıdır: ad alanı türü, depolama kapasitesi ve katman seçiminiz.
- Microsoft Genomiks için ücret, her bir iş akışının işlediği gigaesaların sayısına bağlıdır.
Sonraki adımlar
- Microsoft Genomiks: genel sorular
- Genomikhızlı başlangıç başlangıç seti
- Burrows-Wheeler Aligner
- Genome analiz araç seti
İlgili kaynaklar
Tam dağıtılabilir mimariler:
Data Factory çözümleri
- Otomatik kurumsal iş zekası
- Azure Data Factory ile Hibrit ETL
- Azure 'da ana bilgisayar verilerini çoğaltma ve eşitleme