Rövid útmutató: Munkafolyamat futtatása a Microsoft Genomics szolgáltatással
Ebben a rövid útmutatóban bemeneti adatokat tölt fel egy Azure Blob Storage-fiókba, és futtat egy munkafolyamatot a Microsoft Genomics szolgáltatáson keresztül a Python Genomics-ügyféllel. A Microsoft Genomics egy méretezhető, biztonságos másodlagos elemzési szolgáltatás, amely képes a genom gyors feldolgozására, és nyersolvasásokból kiindulva rendezett beolvasásokat és változóhívásokat hoz létre.
Előfeltételek
- Egy Azure-fiók, aktív előfizetéssel. Hozzon létre ingyenes fiókot.
- Python 2.7.12+, telepített és
pip
python
a rendszerútvonalon. A Microsoft Genomics-ügyfél nem kompatibilis a Python 3-tal.
Előkészületek: Microsoft Genomics-fiók létrehozása az Azure Portalon
Microsoft Genomics-fiók létrehozásához lépjen a Genomics-fiók létrehozása a Azure Portal. Ha még nem rendelkezik Azure-előfizetéssel, a Microsoft Genomics-fiók létrehozása előtt hozzon létre egyet.
Konfigurálja Genomics-fiókját az alábbi információkkal az előző képen látható módon.
Beállítás | Ajánlott érték | Mező leírása |
---|---|---|
Előfizetés | Az Ön előfizetésének neve | Ez az Azure-szolgáltatásokhoz tartozó számlázási egység – Az előfizetései részleteivel kapcsolatban lásd az előfizetéseket ismertető cikket. |
Erőforráscsoport | MyResourceGroup | Az erőforráscsoportok használatával több Azure-erőforrást (Storage-fiók, Genomics-fiók stb.) rendezhet egy csoportba a könnyebb kezelhetőség érdekében. További információkért lásd: Erőforráscsoportok. Az érvényes erőforráscsoport-nevekkel kapcsolatban lásd az elnevezési szabályokat ismertető cikket. |
Fióknév | MyGenomicsAccount | Válasszon egyedi fiókazonosítót. Az érvényes nevekkel kapcsolatban lásd az elnevezési szabályokat ismertető cikket. |
Hely | USA 2. nyugati régiója | A szolgáltatás a következő régiókban érhető el: az USA 2. nyugati régiója, Nyugat-Európa, és Délkelet-Ázsia |
Az üzembe helyezési folyamat figyeléséhez a felső menüsor Értesítések elemét választhatja.
További információ a Microsoft Genomicsról: Mi a Microsoft Genomics?
Előkészületek: A Microsoft Genomics Python-kliens telepítése
A Pythont és a Microsoft Genomics Python-ügyfelet msgen
is telepítenie kell a helyi környezetben.
A Python telepítése
A Microsoft Genomics Python-ügyfél kompatibilis a Python 2.7.12-es vagy újabb 2.7.xx-es verziójával. A 2.7.14 a javasolt verzió. A letöltés itt található.
Fontos
A Python 3.x nem kompatibilis a Python 2.7.xx-vel. msgen
Egy Python 2.7-alkalmazás. A futtatásakor msgen
győződjön meg arról, hogy az aktív Python-környezet a Python 2.7.xx verzióját használja. A Python 3.x-es verziójával való használat msgen
során hibák léphetnek fel.
A Microsoft Genomics Python-ügyfél telepítése msgen
A Microsoft Genomics-ügyfél msgen
telepítése a Python pip
használatával. Az alábbi utasítások feltételezik, hogy a Python2.x már szerepel a rendszerútvonalon. Ha a pip
telepítés nem ismerhető fel, akkor hozzá kell adnia a Pythont és a szkriptek almappáját a rendszerútvonalhoz.
pip install --upgrade --no-deps msgen
pip install msgen
Ha nem szeretne rendszerszintű binárisként telepíteni msgen
és módosítani a rendszerszintű Python-csomagokat, használja a jelzőt a –-user
következővel pip
: .
A csomagalapú telepítés vagy setup.py használatakor minden szükséges csomag telepítve lesz.
Python-ügyfél tesztelése msgen
A Microsoft Genomics-ügyfél teszteléséhez töltse le a konfigurációs fájlt a Genomics-fiókjából. A Azure Portal keresse meg Genomics-fiókját a bal felső sarokban található Minden szolgáltatás elemre kattintva, majd keresse meg és válassza ki a Genomics-fiókokat.
Válassza ki az imént létrehozott Genomics-fiókot, lépjen az Access Keys (Hozzáférési kulcsok) elemre, és töltse le a konfigurációs fájlt.
Az alábbi paranccsal próbálja ki, hogy a Microsoft Genomics Python-kliens működik-e:
msgen list -f "<full path where you saved the config file>"
Microsoft Azure Storage-fiók létrehozása
A Microsoft Genomics szolgáltatás a bemeneteket az Azure Storage-fiókban tárolt blokkblobok formájában várja. Emellett a kimeneti fájlokat is blokkblobok formájában írja a felhasználó által meghatározott Azure Storage-fiókban lévő tárolóba. A bemenetek és kimenetek különböző tárfiókokban is lehetnek. Ha az adatok már egy Azure Storage-fiókban vannak, csak azt kell ellenőriznie, hogy a fiók ugyanazon a helyen található-e, mint a Genomics-fiók. Ellenkező esetben a kimenő forgalom díjai a Microsoft Genomics szolgáltatás futtatásakor merülnek fel. Ha még nem rendelkezik Azure Storage-fiókkal, létre kell hoznia egyet, és fel kell töltenie az adatokat. Az Azure Storage-fiókokról itt talál további információt, beleértve a tárfiókok és az általa nyújtott szolgáltatások adatait. Azure Storage-fiók létrehozásához lépjen a Tárfiók létrehozása elemre a Azure Portal.
Konfigurálja a tárfiókot az alábbi információkkal, ahogyan az az előző képen látható. Használja a tárfiókok legtöbb szabványos beállítását, és csak azt adja meg, hogy a fiók BlobStorage, nem pedig általános célú. A le- és feltöltés a blobtárolók esetében 2–5-ször gyorsabb. Ajánlott az alapértelmezett üzembehelyezési modell, az Azure Resource Manager.
Beállítás | Ajánlott érték | Mező leírása |
---|---|---|
Előfizetés | Az Azure-előfizetése | Az előfizetései részleteivel kapcsolatban lásd: Előfizetések |
Erőforráscsoport | MyResourceGroup | Ugyanazt az erőforráscsoportot választhatja ki, mint a Genomics-fiókját. Az érvényes erőforráscsoport-nevekért lásd: Elnevezési szabályok |
Tárfiók neve | MyStorageAccount | Válasszon egyedi fiókazonosítót. Érvényes nevekért lásd: Elnevezési szabályok |
Hely | USA 2. nyugati régiója | Használja ugyanazt a helyet, mint a Genomics-fiók helye, a kimenő forgalom költségeinek csökkentéséhez és a késés csökkentéséhez. |
Teljesítmény | Standard | Az alapértelmezett beállítás a standard. A standard és prémium szintű tárfiókokkal kapcsolatos további részletekért lásd: Bevezetés a Microsoft Azure Storage használatába |
Fiók altípusa | BlobStorage | A le- és feltöltés a blobtárolók esetében 2–5-ször gyorsabb az általános célú fiókokhoz képest. |
Replikáció | Helyileg redundáns tárolás | A helyileg redundáns tárolással a rendszer abban a régióban lévő adatközpontba replikálja az adatokat, amelyben a tárfiókot létrehozták. További információ: Azure Storage-replikáció |
Hozzáférési szint | Gyakori | A Gyakori hozzáférés a tárfiókban tárolt objektumok gyakoribb elérésére utal. |
Ezután válassza a Felülvizsgálat + létrehozás lehetőséget a tárfiók létrehozásához. Ahogy a Genomics-fiók létrehozásakor is, a felső menüsávon az Értesítések lehetőséget választva figyelheti az üzembe helyezési folyamatot.
Bemeneti adatok feltöltése a Storage-fiókba
A Microsoft Genomics szolgáltatás bemeneti fájlként párosított végolvasásokat (fastq- vagy bam-fájlokat) vár. Feltöltheti saját adatait, vagy kipróbálhatja a szolgáltatást a nyilvánosan elérhető mintaadatokkal.
A tárfiókban létre kell hoznia egy blobtárolót a bemeneti adatok számára, valamint egy másikat a kimeneti adatok számára. Töltse fel a bemeneti adatokat a bemeneti blobtárolóba. Ehhez különböző eszközök használhatók, például Microsoft Azure Storage Explorer, BlobPorter vagy AzCopy.
Munkafolyamat futtatása a Microsoft Genomics szolgáltatáson keresztül a Python-ügyféllel msgen
Ha munkafolyamatot szeretne futtatni a Microsoft Genomics szolgáltatáson keresztül, szerkessze a config.txt fájlt, és adja meg az adatok bemeneti és kimeneti tárolóját. Nyissa meg a Genomics-fiókból letöltött config.txt fájlt. A megadni kívánt szakaszok az előfizetési kulcs és az alul található hat elem, a tárfiók neve, a kulcs és a tároló neve mind a bemenet, mind a kimenet esetében. Ezek az információk a tárfiók hozzáférési kulcsainak Azure Portal vagy közvetlenül a Azure Storage Explorer találhatók.
Ha futtatni szeretné a GATK4-et, állítsa a paramétert értékre process_name
gatk4
.
Alapértelmezés szerint a Genomics szolgáltatás VCF-fájlokat ad ki. Ha vCF-kimenet helyett gVCF-kimenetet szeretne (ez a GATK 3.x és emit-ref-confidence
a GATK 4.x verziójának felel meg-emitRefConfidence
), adja hozzá a paramétert a emit_ref_confidence
config.txt, és állítsa be értékre gvcf
az előző ábrán látható módon. A VCF-kimenetre való visszaváltáshoz távolítsa el a config.txt fájlból, vagy állítsa a paramétert értékre emit_ref_confidence
none
.
bgzip
egy olyan eszköz, amely tömöríti a vcf vagy gvcf fájlt, és tabix
létrehoz egy indexet a tömörített fájlhoz. Alapértelmezés szerint a Genomics szolgáltatás fut bgzip
, amelyet tabix
a ".g.vcf" kimenet követ, de alapértelmezés szerint nem futtatja ezeket az eszközöket a ".vcf" kimenethez. Futtatáskor a szolgáltatás ".gz" (bgzip kimenet) és ".tbi" (tabix kimenet) fájlokat hoz létre. Az argumentum egy logikai érték, amely alapértelmezés szerint false (hamis) értékre van állítva a ".vcf" kimenetnél, és alapértelmezés szerint igaz értékre a ".g.vcf" kimenet esetében. A parancssorban való használathoz adja meg -bz
a vagy --bgzip-output
a true
értéket (futtassa a bgzip és a tabix parancsot) vagy false
a parancsot. Ha ezt az argumentumot a config.txt fájlban szeretné használni, adja hozzá bgzip_output: true
a vagy bgzip_output: false
a fájlt.
Küldje el a munkafolyamatot a Microsoft Genomics szolgáltatásnak a msgen
Python-ügyféllel
A Microsoft Genomics Python-kliensen keresztül a munkafolyamatot az alábbi parancs használatával küldheti el:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
A munkafolyamatok állapotát a következő paranccsal tekintheti meg:
msgen list -f c:\temp\config.txt
A munkafolyamat befejezése után megtekintheti a kimeneti fájlokat az Azure Storage-fiókjában a konfigurált kimeneti tárolóban.
Következő lépések
Ebben a cikkben minta bemeneti adatokat töltött fel az Azure Storage-ba, és egy munkafolyamatot küldött a Microsoft Genomics szolgáltatásnak a msgen
Python-ügyfélen keresztül. A Microsoft Genomics szolgáltatással használható egyéb bemeneti fájltípusokkal kapcsolatos további információkért tekintse meg a következő oldalakat: párosított FASTQ | BAM | Multiple FASTQ vagy BAM.