Rövid útmutató: Munkafolyamat futtatása a Microsoft Genomics szolgáltatással

Ebben a rövid útmutatóban bemeneti adatokat tölt fel egy Azure Blob Storage-fiókba, és futtat egy munkafolyamatot a Microsoft Genomics szolgáltatáson keresztül a Python Genomics-ügyféllel. A Microsoft Genomics egy méretezhető, biztonságos másodlagos elemzési szolgáltatás, amely képes a genom gyors feldolgozására, és nyersolvasásokból kiindulva rendezett beolvasásokat és változóhívásokat hoz létre.

Előfeltételek

Előkészületek: Microsoft Genomics-fiók létrehozása az Azure Portalon

Microsoft Genomics-fiók létrehozásához lépjen a Genomics-fiók létrehozása a Azure Portal. Ha még nem rendelkezik Azure-előfizetéssel, a Microsoft Genomics-fiók létrehozása előtt hozzon létre egyet.

Microsoft Genomics a Azure Portal

Konfigurálja Genomics-fiókját az alábbi információkkal az előző képen látható módon.

Beállítás Ajánlott érték Mező leírása
Előfizetés Az Ön előfizetésének neve Ez az Azure-szolgáltatásokhoz tartozó számlázási egység – Az előfizetései részleteivel kapcsolatban lásd az előfizetéseket ismertető cikket.
Erőforráscsoport MyResourceGroup Az erőforráscsoportok használatával több Azure-erőforrást (Storage-fiók, Genomics-fiók stb.) rendezhet egy csoportba a könnyebb kezelhetőség érdekében. További információkért lásd: Erőforráscsoportok. Az érvényes erőforráscsoport-nevekkel kapcsolatban lásd az elnevezési szabályokat ismertető cikket.
Fióknév MyGenomicsAccount Válasszon egyedi fiókazonosítót. Az érvényes nevekkel kapcsolatban lásd az elnevezési szabályokat ismertető cikket.
Hely USA 2. nyugati régiója A szolgáltatás a következő régiókban érhető el: az USA 2. nyugati régiója, Nyugat-Európa, és Délkelet-Ázsia

Az üzembe helyezési folyamat figyeléséhez a felső menüsor Értesítések elemét választhatja.

Értesítések értesítések

További információ a Microsoft Genomicsról: Mi a Microsoft Genomics?

Előkészületek: A Microsoft Genomics Python-kliens telepítése

A Pythont és a Microsoft Genomics Python-ügyfelet msgen is telepítenie kell a helyi környezetben.

A Python telepítése

A Microsoft Genomics Python-ügyfél kompatibilis a Python 2.7.12-es vagy újabb 2.7.xx-es verziójával. A 2.7.14 a javasolt verzió. A letöltés itt található.

Fontos

A Python 3.x nem kompatibilis a Python 2.7.xx-vel. msgen Egy Python 2.7-alkalmazás. A futtatásakor msgengyőződjön meg arról, hogy az aktív Python-környezet a Python 2.7.xx verzióját használja. A Python 3.x-es verziójával való használat msgen során hibák léphetnek fel.

A Microsoft Genomics Python-ügyfél telepítése msgen

A Microsoft Genomics-ügyfél msgentelepítése a Python pip használatával. Az alábbi utasítások feltételezik, hogy a Python2.x már szerepel a rendszerútvonalon. Ha a pip telepítés nem ismerhető fel, akkor hozzá kell adnia a Pythont és a szkriptek almappáját a rendszerútvonalhoz.

pip install --upgrade --no-deps msgen
pip install msgen

Ha nem szeretne rendszerszintű binárisként telepíteni msgen és módosítani a rendszerszintű Python-csomagokat, használja a jelzőt a –-user következővel pip: . A csomagalapú telepítés vagy setup.py használatakor minden szükséges csomag telepítve lesz.

Python-ügyfél tesztelése msgen

A Microsoft Genomics-ügyfél teszteléséhez töltse le a konfigurációs fájlt a Genomics-fiókjából. A Azure Portal keresse meg Genomics-fiókját a bal felső sarokban található Minden szolgáltatás elemre kattintva, majd keresse meg és válassza ki a Genomics-fiókokat.

A Microsoft Genomics megkeresése a Azure Portal

Válassza ki az imént létrehozott Genomics-fiókot, lépjen az Access Keys (Hozzáférési kulcsok) elemre, és töltse le a konfigurációs fájlt.

Konfigurációs fájl letöltése a Microsoft Genomicsból

Az alábbi paranccsal próbálja ki, hogy a Microsoft Genomics Python-kliens működik-e:

msgen list -f "<full path where you saved the config file>"

Microsoft Azure Storage-fiók létrehozása

A Microsoft Genomics szolgáltatás a bemeneteket az Azure Storage-fiókban tárolt blokkblobok formájában várja. Emellett a kimeneti fájlokat is blokkblobok formájában írja a felhasználó által meghatározott Azure Storage-fiókban lévő tárolóba. A bemenetek és kimenetek különböző tárfiókokban is lehetnek. Ha az adatok már egy Azure Storage-fiókban vannak, csak azt kell ellenőriznie, hogy a fiók ugyanazon a helyen található-e, mint a Genomics-fiók. Ellenkező esetben a kimenő forgalom díjai a Microsoft Genomics szolgáltatás futtatásakor merülnek fel. Ha még nem rendelkezik Azure Storage-fiókkal, létre kell hoznia egyet, és fel kell töltenie az adatokat. Az Azure Storage-fiókokról itt talál további információt, beleértve a tárfiókok és az általa nyújtott szolgáltatások adatait. Azure Storage-fiók létrehozásához lépjen a Tárfiók létrehozása elemre a Azure Portal.

Tárfiók létrehozása lap

Konfigurálja a tárfiókot az alábbi információkkal, ahogyan az az előző képen látható. Használja a tárfiókok legtöbb szabványos beállítását, és csak azt adja meg, hogy a fiók BlobStorage, nem pedig általános célú. A le- és feltöltés a blobtárolók esetében 2–5-ször gyorsabb. Ajánlott az alapértelmezett üzembehelyezési modell, az Azure Resource Manager.

Beállítás Ajánlott érték Mező leírása
Előfizetés Az Azure-előfizetése Az előfizetései részleteivel kapcsolatban lásd: Előfizetések
Erőforráscsoport MyResourceGroup Ugyanazt az erőforráscsoportot választhatja ki, mint a Genomics-fiókját. Az érvényes erőforráscsoport-nevekért lásd: Elnevezési szabályok
Tárfiók neve MyStorageAccount Válasszon egyedi fiókazonosítót. Érvényes nevekért lásd: Elnevezési szabályok
Hely USA 2. nyugati régiója Használja ugyanazt a helyet, mint a Genomics-fiók helye, a kimenő forgalom költségeinek csökkentéséhez és a késés csökkentéséhez.
Teljesítmény Standard Az alapértelmezett beállítás a standard. A standard és prémium szintű tárfiókokkal kapcsolatos további részletekért lásd: Bevezetés a Microsoft Azure Storage használatába
Fiók altípusa BlobStorage A le- és feltöltés a blobtárolók esetében 2–5-ször gyorsabb az általános célú fiókokhoz képest.
Replikáció Helyileg redundáns tárolás A helyileg redundáns tárolással a rendszer abban a régióban lévő adatközpontba replikálja az adatokat, amelyben a tárfiókot létrehozták. További információ: Azure Storage-replikáció
Hozzáférési szint Gyakori A Gyakori hozzáférés a tárfiókban tárolt objektumok gyakoribb elérésére utal.

Ezután válassza a Felülvizsgálat + létrehozás lehetőséget a tárfiók létrehozásához. Ahogy a Genomics-fiók létrehozásakor is, a felső menüsávon az Értesítések lehetőséget választva figyelheti az üzembe helyezési folyamatot.

Bemeneti adatok feltöltése a Storage-fiókba

A Microsoft Genomics szolgáltatás bemeneti fájlként párosított végolvasásokat (fastq- vagy bam-fájlokat) vár. Feltöltheti saját adatait, vagy kipróbálhatja a szolgáltatást a nyilvánosan elérhető mintaadatokkal.

A tárfiókban létre kell hoznia egy blobtárolót a bemeneti adatok számára, valamint egy másikat a kimeneti adatok számára. Töltse fel a bemeneti adatokat a bemeneti blobtárolóba. Ehhez különböző eszközök használhatók, például Microsoft Azure Storage Explorer, BlobPorter vagy AzCopy.

Munkafolyamat futtatása a Microsoft Genomics szolgáltatáson keresztül a Python-ügyféllel msgen

Ha munkafolyamatot szeretne futtatni a Microsoft Genomics szolgáltatáson keresztül, szerkessze a config.txt fájlt, és adja meg az adatok bemeneti és kimeneti tárolóját. Nyissa meg a Genomics-fiókból letöltött config.txt fájlt. A megadni kívánt szakaszok az előfizetési kulcs és az alul található hat elem, a tárfiók neve, a kulcs és a tároló neve mind a bemenet, mind a kimenet esetében. Ezek az információk a tárfiók hozzáférési kulcsainak Azure Portal vagy közvetlenül a Azure Storage Explorer találhatók.

Genomics-konfiguráció

Ha futtatni szeretné a GATK4-et, állítsa a paramétert értékre process_namegatk4.

Alapértelmezés szerint a Genomics szolgáltatás VCF-fájlokat ad ki. Ha vCF-kimenet helyett gVCF-kimenetet szeretne (ez a GATK 3.x és emit-ref-confidence a GATK 4.x verziójának felel meg-emitRefConfidence), adja hozzá a paramétert a emit_ref_confidenceconfig.txt, és állítsa be értékre gvcfaz előző ábrán látható módon. A VCF-kimenetre való visszaváltáshoz távolítsa el a config.txt fájlból, vagy állítsa a paramétert értékre emit_ref_confidencenone.

bgzip egy olyan eszköz, amely tömöríti a vcf vagy gvcf fájlt, és tabix létrehoz egy indexet a tömörített fájlhoz. Alapértelmezés szerint a Genomics szolgáltatás fut bgzip , amelyet tabix a ".g.vcf" kimenet követ, de alapértelmezés szerint nem futtatja ezeket az eszközöket a ".vcf" kimenethez. Futtatáskor a szolgáltatás ".gz" (bgzip kimenet) és ".tbi" (tabix kimenet) fájlokat hoz létre. Az argumentum egy logikai érték, amely alapértelmezés szerint false (hamis) értékre van állítva a ".vcf" kimenetnél, és alapértelmezés szerint igaz értékre a ".g.vcf" kimenet esetében. A parancssorban való használathoz adja meg -bz a vagy --bgzip-output a true értéket (futtassa a bgzip és a tabix parancsot) vagy falsea parancsot. Ha ezt az argumentumot a config.txt fájlban szeretné használni, adja hozzá bgzip_output: true a vagy bgzip_output: false a fájlt.

Küldje el a munkafolyamatot a Microsoft Genomics szolgáltatásnak a msgen Python-ügyféllel

A Microsoft Genomics Python-kliensen keresztül a munkafolyamatot az alábbi parancs használatával küldheti el:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

A munkafolyamatok állapotát a következő paranccsal tekintheti meg:

msgen list -f c:\temp\config.txt 

A munkafolyamat befejezése után megtekintheti a kimeneti fájlokat az Azure Storage-fiókjában a konfigurált kimeneti tárolóban.

Következő lépések

Ebben a cikkben minta bemeneti adatokat töltött fel az Azure Storage-ba, és egy munkafolyamatot küldött a Microsoft Genomics szolgáltatásnak a msgen Python-ügyfélen keresztül. A Microsoft Genomics szolgáltatással használható egyéb bemeneti fájltípusokkal kapcsolatos további információkért tekintse meg a következő oldalakat: párosított FASTQ | BAM | Multiple FASTQ vagy BAM.