Hızlı Başlangıç: Microsoft Genomiks hizmeti üzerinden iş akışı çalıştırma

Bu hızlı başlangıçta, giriş verilerini bir Azure Blob depolama hesabına yükler ve Python Genomiks istemcisini kullanarak Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştırırsınız. Microsoft Genomiks, ham okumalardan başlayarak hizalanmış okumalar ve varyant ilanları üreten, bir genomu hızlı bir şekilde işleyebilen ikincil analize yönelik ölçeklenebilir ve güvenli bir hizmettir.

Önkoşullar

Kurulum: Azure portalında bir Microsoft Genomiks hesabı oluşturma

Bir Microsoft Genomiks hesabı oluşturmak için Azure portal Genomiks hesabı oluşturma bölümüne gidin. Azure aboneliğiniz yoksa Microsoft Genomiks hesabı oluşturmadan bir hesap açın.

Azure portal Microsoft Genomiks

Genomiks hesabınızı bir önceki resimde gösterildiği gibi aşağıdaki bilgilerle yapılandırın.

Ayar Önerilen değer Alan açıklaması
Abonelik Aboneliğinizin adı Bu, Azure hizmetleriniz için faturalandırma birimidir. Aboneliğiniz hakkında ayrıntılı bilgi için bkz. Abonelikler
Kaynak grubu MyResourceGroup Kaynak grupları kolay yönetim için birden fazla Azure kaynağını (depolama hesabı, genomiks hesabı vs.) tek bir grupta toplamanızı sağlar. Daha fazla bilgi için bkz. Kaynak Grupları. Geçerli kaynak grubu adları için bkz. Adlandırma Kuralları
Hesap adı MyGenomicsAccount Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz. Adlandırma Kuralları
Konum Batı ABD 2 Bu hizmet Batı ABD 2, Batı Avrupa ve Güneydoğu Asya konumlarında kullanılabilir

Dağıtım sürecini izlemek için üstteki menü çubuğunda Bildirimler ' i seçebilirsiniz.

Bildirimler

Microsoft Genomiks hakkında daha fazla bilgi için bkz. Microsoft Genomiks nedir?

Kurulum: Microsoft Genomiks Python istemcisini yükleme

Hem Python hem de Microsoft Genomiks Python istemcisini msgen yerel ortamınıza yüklemeniz gerekir.

Python'ı Yükleme

Microsoft Genomiks Python istemcisi Python 2.7.12 veya sonraki bir 2.7. xx sürümü ile uyumludur. 2.7.14 önerilen sürümdür. Dosyayı buradan indirebilirsiniz.

Önemli

Python 3. x, Python 2.7. xx ile uyumlu değildir. msgen bir Python 2,7 uygulamasıdır. Çalışırken msgen , etkin Python ortamınızın Python 'un 2.7. xx sürümünü kullandığınızdan emin olun. msgenPython 'un 3. x sürümüyle birlikte kullanmaya çalışırken hata alabilirsiniz.

Microsoft Genomiks Python istemcisini yükler msgen

pipMicrosoft Genomiks istemcisini yüklemek Için Python kullanın msgen . Aşağıdaki yönergelerde, Python2. x ' in zaten sistem yolunuzda olduğu varsayılır. pipYüklemenin algılanmadığını sorun yaşıyorsanız, sistem yolunuza Python ve Scripts alt klasörünü eklemeniz gerekir.

pip install --upgrade --no-deps msgen
pip install msgen

msgenSistem genelindeki bir ikili olarak yüklemek ve sistem genelinde Python paketlerini değiştirmek istemiyorsanız, –-user bayrağını ile kullanın pip . Paket tabanlı yükleme veya setup.py kullandığınızda, gerekli tüm gerekli paketler yüklenir.

msgenPython istemcisini test etme

Microsoft Genomiks istemcisini test etmek için, Genomiks hesabınızdan yapılandırma dosyasını indirin. Azure portal, sol üstteki tüm hizmetler ' i seçip Genomiks hesaplarını arayıp seçip seçerek Genomiks hesabınıza gidin.

Azure portal Microsoft Genomiks bulun

Az önce oluşturduğunuz Genomiks hesabını seçin, erişim anahtarlarına gidin ve yapılandırma dosyasını indirin.

Microsoft Genomiks 'den yapılandırma dosyasını indirin

Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisinin çalışıp çalışmadığını test edin

msgen list -f "<full path where you saved the config file>"

Microsoft Azure Depolama hesabı oluşturma

Microsoft Genomiks hizmeti girişlerinin Azure depolama hesabında blok blobları olarak depolanmasını bekler. Ayrıca çıkış dosyalarını Azure depolama hesabında kullanıcı tarafından belirtilen bir kapsayıcıya blok blobları olarak yazar. Girişler ve çıkışlar farklı depolama hesaplarında tutulabilir. Azure depolama hesabınızda veri varsa Genomiks hesabınızla aynı konumda olduğundan emin olmanız gerekir. Aksi takdirde, Microsoft Genomiks hizmeti çalıştırılırken çıkış ücretleri tahakkuk edilir. Henüz bir Azure depolama hesabınız yoksa, bir tane oluşturmanız ve verilerinizi yüklemeniz gerekir. Depolama hesabının ne olduğu ve hangi hizmetleri sağladığını de kapsayan Azure depolama hesapları hakkındadaha fazla bilgi edinebilirsiniz. Bir Azure depolama hesabı oluşturmak için Azure portal depolama hesabı oluştur ' a gidin.

Depolama hesabı sayfa oluştur

Depolama hesabınızı önceki görüntüde gösterildiği gibi aşağıdaki bilgilerle yapılandırın. Bir depolama hesabı için standart seçeneklerin çoğunu kullanın, yalnızca hesabın BlobStorage olduğunu ve genel amaçlı değil olduğunu belirtin. Blob depolama indirme ve yükleme işlemlerinde 2-5 kat daha yüksek hız sunabilir. Varsayılan dağıtım modeli Azure Resource Manager önerilir.

Ayar Önerilen değer Alan açıklaması
Abonelik Azure aboneliğiniz Aboneliğiniz hakkında daha ayrıntılı bilgi için bkz. Abonelikler
Kaynak grubu MyResourceGroup Genomiks hesabınızla aynı kaynak grubunu seçebilirsiniz. Geçerli kaynak grubu adları için bkz. adlandırma kuralları
Depolama hesabı adı MyStorageAccount Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz. adlandırma kuralları
Konum Batı ABD 2 Çıkış ücretlerini azaltmak ve gecikmeyi azaltmak için Genomiks hesabınızın konumuyla aynı konumu kullanın.
Performans Standart Varsayılan olarak standart seçeneği kullanılır. standart ve premium depolama hesapları hakkında daha fazla bilgi için bkz. Microsoft Azure depolama 'ya giriş
Hesap türü BlobStorage Blob depolama indirme ve yükleme işlemlerinde genel amaçlı depolama alanından 2-5 kat daha yüksek hız sunabilir.
Çoğaltma Yerel olarak yedekli depolama Yerel olarak yedekli depolama, verilerinizi depolama hesabınızı oluşturduğunuz bölgedeki veri merkezi içinde çoğaltır. daha fazla bilgi için bkz. Azure Depolama çoğaltma
Erişim katmanı Sık Erişimli Sık erişimli seçeneği, depolama hesabındaki nesnelere erişimin daha sık olduğunu belirtir.

Ardından depolama hesabınızı oluşturmak için gözden geçir + oluştur ' u seçin. Genomiks hesabınızı oluştururken yaptığınız gibi, dağıtım işlemini izlemek için üstteki menü çubuğunda Bildirimler ' i seçebilirsiniz.

Giriş verilerini depolama hesabınıza yükleyin

Microsoft Genomiks hizmeti, giriş dosyaları olarak eşleştirilmiş uç okuma (fastq veya Baa dosyaları) bekliyor. Kendi verilerinizi yükleyebilir veya sunulan genel kullanıma açık örnek verileri kullanarak hizmeti keşfedebilirsiniz. Genel kullanıma açık örnek verileri kullanmak isterseniz buradan ulaşabilirsiniz:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

Depolama hesabınızda biri giriş verileriniz, biri de çıkış verileriniz için olmak üzere iki blob kapsayıcısı oluşturmanız gerekir. Giriş verilerini giriş blob kapsayıcısına yükleyin. Microsoft Azure Depolama Gezgini, blobporterveya azcopydahil olmak üzere çeşitli araçlar kullanılabilir.

Python istemcisini kullanarak Microsoft Genomiks hizmeti üzerinden iş akışı çalıştırma msgen

Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştırmak için, verilerinizin giriş ve çıkış depolama kapsayıcısını belirtmek üzere config.txt dosyasını düzenleyin. Genomiks hesabınızdan indirdiğiniz config.txt dosyasını açın. Belirtmeniz gereken bölümler, hem giriş hem de çıkış için abonelik anahtarınız ve alt kısımdaki altı öğe, depolama hesabı adı, anahtar ve kapsayıcı adıdır. bu bilgileri, depolama hesabınızın anahtarlarına erişmek için Azure portal giderek veya doğrudan Azure Depolama Gezgini aracılığıyla bulabilirsiniz.

Genomiks yapılandırması

GATK4 çalıştırmak istiyorsanız process_name parametresini olarak ayarlayın gatk4 .

Varsayılan olarak, Genomiks hizmeti VCF dosyalarını çıktı. Bir VCF çıkışı yerine bir gVCF çıkışı isterseniz ( -emitRefConfidence GATK 3. x içinde ve emit-ref-confidence GATK 4. x içinde ile eşdeğer), emit_ref_confidence parametreyi config.txt ekleyin ve gvcf Önceki şekilde gösterildiği gibi olarak ayarlayın. VCF çıktısına geri dönmek için config.txt dosyasından kaldırın ya da emit_ref_confidence parametresini olarak ayarlayın none .

bgzip , VCF veya gvcf dosyasını sıkıştıran ve tabix Sıkıştırılmış dosya için bir dizin oluşturan bir araçtır. Varsayılan olarak, Genomiks hizmeti bgzip tabix ". g. vcf" çıktısından sonra çalışır, ancak bu araçları ". vcf" çıkışı için varsayılan olarak çalıştırmaz. Çalıştırıldığında, hizmet ". gz" (bgzıp çıkışı) ve ". tbi" (tabx çıkışı) dosyaları üretir. Bağımsız değişkeni, ". vcf" çıkışı için varsayılan olarak false olarak ayarlanmış ve ". g. vcf" çıkışı için varsayılan olarak true olarak ayarlanan bir Boole değeridir. Komut satırında kullanmak için ya da olarak belirtin -bz --bgzip-output true (bgzip ve tabx 'i çalıştırın) veya false . Bu bağımsız değişkeni config.txt dosyasında kullanmak için bgzip_output: true dosya ekleyin bgzip_output: false .

Python istemcisini kullanarak iş akışınızı Microsoft Genomiks hizmetine gönderme msgen

Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisiyle iş akışınızı gönderin:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

İş akışlarınızın durumunu görüntülemek için aşağıdaki komutu kullanabilirsiniz:

msgen list -f c:\temp\config.txt 

İş akışınız tamamlandığında, Azure Depolama hesabınızdaki çıktı dosyalarını yapılandırdığınız çıkış kapsayıcısında görüntüleyebilirsiniz.

Sonraki adımlar

Bu makalede, Azure depolama 'ya örnek giriş verileri yüklediniz ve Python istemcisi üzerinden Microsoft Genomiks hizmetine bir iş akışı gönderdiniz msgen . Microsoft Genomiks hizmeti ile kullanılabilecek diğer giriş dosya türleri hakkında daha fazla bilgi edinmek için şu sayfalara bakın: eşleştirilmiş fastq | BAE | birden çok fastq veya BAE.