Rychlý start: Spuštění pracovního postupu ve službě Microsoft Genomics

V tomto rychlém startu nahrajete vstupní data do účtu služby Azure Blob Storage a spustíte pracovní postup prostřednictvím Microsoft Genomics služby pomocí klienta Python Genomics. Microsoft Genomics je škálovatelná a bezpečná služba pro sekundární analýzu, která dokáže rychle analyzovat genom počínaje od nezpracovaných čtení a vytváří zarovnaná čtení a volání variant.

Požadavky

Příprava: vytvoření účtu Microsoft Genomics na webu Azure Portal

Pokud chcete vytvořit Microsoft Genomics, přejděte na vytvořit účet Genomics v Azure Portal. Pokud ještě nemáte předplatné Azure, založte si ho před vytvořením účtu Microsoft Genomics.

Microsoft Genomics na Azure Portal

Nastavte v účtu Genomics následující údaje, viz předchozí obrázek.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Název vašeho předplatného Toto je fakturační jednotka pro vaše služby Azure – podrobnosti o vašem předplatném najdete v části Předplatná
Skupina prostředků MyResourceGroup Skupiny prostředků umožňují sdružení několika prostředků Azure (účet úložiště, účet Genomics atd.) do jedné skupiny pro zjednodušení správy. Další informace najdete v tématu Skupiny prostředků. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu MyGenomicsAccount Zvolte jedinečný identifikátor účtu. Informace o platných názvech najdete v části Pravidla pojmenování
Umístění Západní USA 2 Služba je dostupná v oblastech USA – západ 2, Západní Evropa a Jihovýchodní Asie

Výběrem možnosti Oznámení v horním řádku nabídek můžete monitorovat proces nasazení.

Oznámení

Další informace o Microsoft Genomics najdete v tématu Co je Microsoft Genomics?

Příprava: instalace pythonového klienta Microsoft Genomics

V místním prostředí musíte nainstalovat Python Microsoft Genomics klienta msgen Pythonu.

Instalace Pythonu

Klient Microsoft Genomics Python je kompatibilní s Pythonem 2.7.12 nebo novější verzí 2.7.xx. Navrhovaná verze je 2.7.14. Můžete si ji stáhnout tady.

Důležité

Python 3.x není kompatibilní s Pythonem 2.7.xx. msgen je aplikace v Pythonu 2.7. Pokud používáte , ujistěte se, že vaše aktivní prostředí Pythonu používá pythonovou verzi msgen 2.7.xx. Při pokusu o použití s Pythonem msgen verze 3.x se mohou zobrazit chyby.

Instalace Microsoft Genomics Pythonu msgen

Pomocí pip Pythonu nainstalujte klienta Microsoft Genomics msgen . Následující pokyny předpokládají, že python2.x už je ve vaší systémové cestě. Pokud máte problémy s nerozpoznání instalace, musíte do systémové cesty přidat Python a podsložku pip scripts.

pip install --upgrade --no-deps msgen
pip install msgen

Pokud nechcete instalovat jako binární soubor pro systém a upravovat balíčky Pythonu v celém msgen systému, použijte –-user příznak s pip . Když použijete instalaci na základě balíčku nebo setup.py, nainstaluje se všechny potřebné balíčky.

Test msgen klienta Pythonu

Pokud chcete otestovat Microsoft Genomics klienta, stáhněte si konfigurační soubor ze svého účtu Genomics. V Azure Portal přejděte ke svému účtu Genomics tak, že v levém horním rohu vyberete Všechny služby a pak vyhledáte a vyberete Účty Genomics.

Vyhledání Microsoft Genomics na Azure Portal

Vyberte účet Genomics, který jste právě provedli, přejděte na Přístupové klíče a stáhněte konfigurační soubor.

Stažení konfiguračního souboru z Microsoft Genomics

Vyzkoušejte správnou funkci pythonového klienta Microsoft Genomics pomocí následujícího příkazu

msgen list -f "<full path where you saved the config file>"

Vytvoření Microsoft Azure Storage účtu

Služba Microsoft Genomics očekává vstupy uložené jako objekty blob bloku v účtu úložiště Azure. Také výstupní soubory zapisuje jako objekty blob bloku do uživatelem zadaného kontejneru v účtu úložiště Azure. Vstupy a výstupy můžou patřit do různých účtů úložiště. Pokud již máte data v účtu úložiště Azure, stačí se ujistit, že je ve stejném umístění jako účet Genomics. Jinak se při spuštění služby Microsoft Genomics poplatky za Microsoft Genomics dat. Pokud ještě nemáte účet úložiště Azure, musíte si ho vytvořit a nahrát data. Další informace o účtech Azure Storage najdete tady,včetně toho, co je účet úložiště a jaké služby poskytuje. Pokud chcete vytvořit účet úložiště Azure, přejděte na vytvořit účet úložiště v Azure Portal.

Storage vytvoření účtu

Nakonfigurujte účet úložiště s následujícími informacemi, jak je znázorněno na předchozím obrázku. Použijte většinu standardních možností pro účet úložiště a určete pouze, že účet je BlobStorage, nikoli pro obecné účely. Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání. Doporučuje se výchozí model Azure Resource Manager nasazení.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Vaše předplatné Azure Podrobnosti o vašich předplatných najdete v tématu Předplatná.
Skupina prostředků MyResourceGroup Můžete vybrat stejnou skupinu prostředků jako pro váš účet Genomics. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu úložiště MyStorageAccount Zvolte jedinečný identifikátor účtu. Platné názvy najdete v tématu Pravidla pojmenování.
Umístění Západní USA 2 Použijte stejné umístění jako u vašeho účtu Genomics, abyste snížili poplatky za příchozí přenos dat a snížili latenci.
Výkon Standard Výchozí nastavení je Standard. Další podrobnosti o účtech služby Storage úrovně Standard a Premium najdete v tématu Úvod do Microsoft Azure Storage.
Druh účtu Blob Storage Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání než úložiště pro obecné účely.
Replikace (Locally redundant storage) Místně redundantní úložiště Místně redundantní úložiště replikuje data třikrát v rámci oblasti, ve které jste vytvořili účet úložiště. Další informace najdete v tématu Azure Storage replikace.
Úroveň přístupu Horká Horká úroveň přístupu znamená, že k objektům v účtu úložiště budete přistupovat častěji.

Pak vyberte Zkontrolovat a vytvořit a vytvořte svůj účet úložiště. Stejně jako při vytváření účtu Genomics můžete výběrem možnosti Oznámení v horním řádku nabídek monitorovat proces nasazení.

Nahrání vstupních dat do účtu úložiště

Služba Microsoft Genomics očekává jako vstupní soubory spárované koncové čtení (soubory fastq nebo bam). Můžete nahrát svoje vlastní data, nebo použít veřejně dostupná ukázková data, která jsme pro vás připravili. Pokud chcete použít veřejně dostupné ukázková data, najdete je tady:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

V rámci účtu úložiště budete potřebovat jeden kontejner objektů blob pro vstupní data a druhý kontejner objektů blob pro výstupní data. Nahrajte vstupní data do vstupního kontejneru objektů blob. Můžete k tomu použít různé nástroje, včetně nástrojů Průzkumník služby Microsoft Azure Storage, BlobPorternebo AzCopy.

Spuštění pracovního postupu ve službě Microsoft Genomics pomocí klienta msgen Pythonu

Pokud chcete spustit pracovní postup prostřednictvím Microsoft Genomics, upravte soubor config.txt a zadejte vstupní a výstupní kontejner úložiště pro vaše data. Otevřete soubor config.txt, který jste stáhli ze svého účtu Genomics. Oddíly, které je potřeba zadat, jsou klíč předplatného a šest položek v dolní části, název účtu úložiště, klíč a název kontejneru pro vstup i výstup. Tyto informace najdete tak, že přejdete v části Azure Portal přístupové klíče pro váš účet úložiště nebo přímo z Průzkumník služby Azure Storage.

Konfigurace Genomics

Pokud chcete spustit GATK4, nastavte process_name parametr na gatk4 .

Ve výchozím nastavení služba Genomics vystupuje jako výstup souborů VCF. Pokud chcete výstup gVCF místo výstupu VCF (odpovídá výstupu v -emitRefConfidence GATK 3.x a emit-ref-confidence v GATK 4.x), přidejte parametr do emit_ref_confidence config.txt a nastavte ho na , jak je znázorněno na gvcf předchozím obrázku. Pokud chcete změnit zpět na výstup VCF, odeberte ho ze souboru config.txt nebo nastavte emit_ref_confidence parametr na none .

bgzip je nástroj, který komprimuje soubor vcf nebo gvcf a vytvoří tabix index pro komprimovaný soubor. Ve výchozím nastavení služba Genomics běží ve výstupu bgzip ".g.vcf", ale ve výchozím nastavení tyto nástroje nespouštěl pro tabix výstup ".vcf". Při spuštění služba vytvoří soubory ".gz" (výstup bgzip) a ".tbi" (výstup tabix). Argument je logická hodnota, která je ve výchozím nastavení nastavená na false pro výstup ".vcf" a ve výchozím nastavení na hodnotu true pro výstup ".g.vcf". Pokud chcete použít na příkazovém řádku, zadejte -bz --bgzip-output nebo jako (spusťte příkaz bgzip a true tabix) nebo false . Pokud chcete tento argument použít vconfig.txt souboru, přidejte do souboru bgzip_output: true nebo bgzip_output: false .

Odeslání pracovního postupu do Microsoft Genomics pomocí klienta msgen Pythonu

Pomocí pythonového klienta Microsoft Genomics odešlete svůj pracovní postup pomocí následujícího příkazu:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Stav pracovního postupu můžete zkontrolovat následujícím příkazem:

msgen list -f c:\temp\config.txt 

Po dokončení pracovního postupu můžete výstupní soubory zobrazit ve svém účtu úložiště Azure ve výstupním kontejneru, který jste nakonfigurovali.

Další kroky

V tomto článku jste nahráli ukázková vstupní data do úložiště Azure a odeslali pracovní postup do Microsoft Genomics služby prostřednictvím msgen pythonového klienta. Další informace o dalších typech vstupních souborů, které lze použít se službou Microsoft Genomics, najdete na následujících stránkách: spárovaný soubor FASTQ | BAM | Multiple FASTQ nebo BAM.