Genomiks ile Precision ilaç işlem hattı

Blob Depolama
Data Factory
Data Lake Storage
Databricks
Microsoft Genomiks

Bu makalede genomik analiz ve raporlama için bir çözüm sunar. Süreçler ve sonuçlar, duyarlıklı tıp senaryoları veya genetik profil oluşturma kullanan tıbbi bakım alanları için uygundur. Çözüm özellikle şu görevleri otomatikleştiren bir klinik genomiks iş akışı sağlar:

  • Sıraleyiciden veri alma
  • Verileri ikincil analiz aracılığıyla taşıma
  • Klinisyenlerin tükettiği sonuçları sağlama

Genomiks'in büyüyen ölçek, karmaşıklık ve güvenlik gereksinimleri, onu buluta taşıma için ideal bir adaydır. Sonuç olarak çözüm, açık kaynak araçlarına ek olarak Azure bulut hizmetlerini de kullanır. Bu yaklaşım, Azure bulutlarının güvenlik, performans ve ölçeklenebilirlik özelliklerinden faydalanmaktadır:

  • Bilim insanları önümüzdeki yıllarda yüz binlerce genom diziley yapmayı planlıyor. Bu verileri depolama ve analiz etme görevi, önemli miktarda işlem gücü ve depolama kapasitesi gerektirir. Dünyanın her yanında bu kaynakları sağlayan veri merkezleriyle Azure bu talepleri karşılar.
  • Azure, ISO 27001 gibi başlıca küresel güvenlik ve gizlilik standartları için sertifikalandırılmıştır.
  • Azure, Sağlık Sigortası Taşınabilirliği ve Sorumluluk Yasası'nın (HIPAA) kişisel sağlık bilgileri için kurduğu güvenlik ve kanıt standartlarıyla uyumludur.

Çözümün önemli bir bileşeni Microsoft Genomiks'tir. Bu hizmet, birkaç saat içinde 30 kat genom işley sunan iyileştirilmiş bir ikincil analiz uygulaması sunar. Standart teknolojiler günler sürer.

Olası kullanım örnekleri

Bu çözüm birçok alan için geçerlidir:

  • Kanser için risk puanlama hastalarının
  • Genetik işaretleyicileri olan ve onları hastalığa yatkın olan hastalarını tanımlama
  • Çalışmalar için hasta kohortları oluşturma

Mimari

Genomiks analizi ve raporlama işlem hattında bilgi akışını gösteren mimari diyagramı.

Diyagramda iki kutu vardır. İlki, sol tarafta düzenleme için Azure Data Factory etiketine sahip. İkinci kutuda Clinician görünümleri etiketi vardır. İlk kutu, verileri veya çeşitli Azure bileşenlerini temsil eden birkaç küçük kutu içerir. Oklar kutuları birbirine bağlar ve oklar üzerinde numaralı etiketler, belge metninde numaralı adımlara karşılık gelen adımlarla aynı olur. Kutuların arasında akan iki ok, Klinisyen görünümleri kutusunda biter. Bir ok, bir klinisyen simgesini gösterir. Diğer simge bir Power BI gösterir.

Bu mimarinin bir Visio dosyasını indirin.

Azure Data Factory iş akışının düzenlemesi için:

  1. Data Factory örnek dosyayı Azure Blob Depolama'ya Depolama. Dosya FASTQ biçimindedir.

  2. Microsoft Genomiks, dosya üzerinde ikincil analiz çalıştırır.

  3. Microsoft Genomiks çıktıyı Blob Depolama biçimlerden birini kullanarak depolar:

    • Değişken çağrı biçimi (VCF)
    • Genomik VCF (GVCF)
  4. Jupyter Notebook dosyasına açıklama ek açıklamalarını içerir. Not defteri, Azure Databricks.

  5. Azure Data Lake Depolama açıklamalı dosyayı depolar.

  6. Jupyter Notebook diğer veri kümeleriyle birleştirin ve verileri analiz eder. Not defteri, Azure Databricks.

  7. Data Lake Depolama verileri depolar.

  8. Azure Healthcare API'leri, verileri bir Hızlı Sağlık Hizmeti Birlikte Çalışma Kaynakları (FHIR) paketine paketler. Klinik veriler daha sonra hastanın elektronik sağlık kaydına (EHR) girer.

  9. Klinisyenler sonuçları panolarda Power BI görüntüleme.

Bileşenler

Çözüm aşağıdaki bileşenleri kullanır:

Microsoft Genomiks

Microsoft Genomiks, sektörün en iyi uygulamalarını uygulayan verimli ve doğru bir genomiks işlem hattı sunar. Yüksek performanslı altyapısı şu görevler için iyileştirilmiştir:

  • Büyük genomik verileri okuma
  • Bunları birçok çekirdekte verimli bir şekilde işleme
  • Sonuçları sıralama ve filtreleme
  • Sonuçları çıkış dosyalarına yazma

Aktarım hızını en üst düzeye çıkarmak için bu altyapı bir Burrows-Wheeler Aligner (BWA) ve Genom Analysis Toolkit (GATK) HaplotypeCaller değişken çağıranı kullanır. Altyapı ayrıca standart genomiks işlem hatlarını da kullanan birkaç bileşen daha kullanır. Örnekler arasında yinelenen işaretleme, temel kalite puanı yeniden ölçeklendirme ve dizinleme yer aldı. Altyapı, birkaç saat içinde tek bir çok çekirdekli sunucu üzerinde tek bir genomik örneği işleyebiçir. İşleme ham okumalarla başlar. Hizalanmış okumalar ve değişken çağrılar üretir.

Dahili olarak, Microsoft Genomiks denetleyicisi sürecin şu yönlerini yönetir:

  • Buluttaki makine havuzlarında genomların toplu işlerini dağıtma
  • Gelen isteklerin kuyruğu bakımı
  • İstekleri genomiks altyapısını çalıştıran sunuculara dağıtma
  • Sunucuların performansını ve ilerlemesini izleme
  • Sonuçları değerlendirme
  • İşlemenin güvenli bir web hizmeti API'si arkasında, uygun ölçekte güvenilir ve güvenli bir şekilde çalışmasını sağlama

Microsoft Genomiks sonuçlarını üçüncül analiz ve makine öğrenmesi hizmetlerde kolayca kullanabilirsiniz. Microsoft Genomiks bir bulut hizmeti olduğundan donanım veya yazılımı yönetmeniz veya güncelleştirmeniz de gerek değildir.

Diğer bileşenler

  • Data Factory, farklı veri depolarından gelen verilerle çalışan bir tümleştirme hizmetidir. İş akışlarını düzenleme ve otomatikleştirme için bu tam olarak yönetilen, sunucusuz platformu kullanabilirsiniz. Özellikle, Data Factory işlem hatlarının bu çözümde Verileri Azure'a aktarması gerekir. Bir dizi işlem hattı daha sonra iş akışının her adımını tetikler.

  • Blob Depolama, büyük miktarlarda yapılandırılmamış veriler için iyileştirilmiş bulut nesne depolaması sunar. Bu senaryoda, Blob Depolama FASTQ dosyası için ilk giriş bölgesi sağlar. Bu hizmet ayrıca Microsoft Genomiks tarafından oluşturulan VCF ve GVCF dosyaları için çıkış hedefi olarak da işlev gösterir. Blob depolamada katmanlama Depolama, fastq dosyalarını işleme sonrasında uygun maliyetli uzun süreli depolamada arşivlemek için bir yol sağlar.

  • Azure Databricks bir veri analizi platformudur. Tam olarak yönetilen Spark kümeleri, çeşitli kaynaklardan gelen büyük veri akışlarını işler. Bu çözümde Azure Databricks, verilere not Jupyter Notebook, birleştirmesi ve çözümlemesi için gereken hesaplama kaynaklarını sağlar.

  • Data Lake Depolama, yüksek performanslı analiz iş yükleri için ölçeklenebilir ve güvenli bir veri gölüdir. Bu hizmet, yüzlerce gigabit aktarım hızını sürdürürken birden çok petabayt bilgi yönetebilir. Veriler yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Genellikle birden çok heterojen kaynaklardan gelir. Bu mimaride Data Lake Depolama, ek açıklamalı dosyalar ve birleştirilmiş veri kümeleri için son giriş bölgesi sağlar. Ayrıca aşağı akış sistemlerinin son çıkışa erişmelerini de sağlar.

  • Power BI, analiz bilgilerini görüntülemek için bir yazılım hizmetleri ve uygulama koleksiyonudur. Bağlanmak ve Power BI veri kaynaklarını görüntülemek için Power BI'i kullanabilirsiniz. Bu çözümde, panoları Power BI ile doldurmak için kullanılabilir. Klinisyenler daha sonra son veri kümesinden görseller oluşturabilir.

  • Azure Healthcare API'leri, klinik sağlık verilerine erişmek için yönetilen, standartlara dayalı ve uyumlu bir arabirimdir. Azure Healthcare API'lerini kullanarak Sağlık Mimarileri'nin başvuru mimarilerini ve uygulamalarını kullanabilirsiniz. Bu senaryoda, Azure sağlık API 'Leri, klinik verileri ile EHR 'ye bir FHıR paketi geçirir.

Dikkat edilmesi gerekenler

aşağıdaki önemli noktalar Microsoft Azure Well-Architected çerçevesiyle hizalanır ve bu çözüme uygulanır:

Kullanılabilirlik konusunda dikkat edilmesi gerekenler

Azure bileşenlerinin çoğu için hizmet düzeyi sözleşmeleri (SLA 'Lar) kullanılabilirliği garanti:

Ölçeklenebilirlik konusunda dikkat edilmesi gerekenler

Birçok Azure hizmeti tasarıma göre ölçeklenebilir:

Güvenlik konuları

Bu çözümdeki teknolojiler, çoğu şirketin güvenlik gereksinimlerini karşılar.

Yönergeler

Tıbbi verilerin hassas doğası nedeniyle, bu belgelerdeki yönergeleri izleyerek idare ve güvenlik sağlayın:

Mevzuata uyumluluk

  • HIPAA ile uyumlu ve ekonomik ve klinik sağlık (HITECH) Yasası için durum bilgisi teknolojisine yönelik bilgiler için bu belgelere bakın:

    • HIPAA-Azure uyumluluğu
    • Ekonomik ve klinik sağlık (HITECH) Yasası için sağlık sigortası taşınabilirlik ve Sorumluluk Yasası (HIPAA) sağlık bilgileri teknolojisi
  • bu çözümün bileşenleri, Microsoft Azure uyumluluk tekliflerinitemel alarak hıpaa kapsamında bulunur. Başka herhangi bir bileşeni yerine eklerseniz, önce bu belge ekinde bulunan listeye göre bunları doğrulayın.

Genel güvenlik özellikleri

Ayrıca, çeşitli bileşenler diğer yollarla verileri de güvenli hale getirin:

Fiyatlandırma

Çoğu Azure hizmeti sayesinde maliyetleri yalnızca kullandığınız kadar ödeyerek azaltabilirsiniz:

Sonraki adımlar

Tam dağıtılabilir mimariler:

Data Factory çözümleri

Analiz çözümleri

Sağlık Çözümleri