Munkafolyamat elküldése azonos mintából származó több bemenet használatával
Ez a cikk bemutatja, hogyan küldhet munkafolyamatot a Microsoft Genomics szolgáltatásnak, ha a bemeneti fájl több FASTQ- vagy BAM-fájlból származik, amelyek ugyanabból a mintából származnak. Ha például egyazon mintát a sorrendvezérlő több sávjában futtatja, a sorrendvezérlő FASTQ-fájlpárokat ad vissza kimenetként minden egyes sávhoz. Ahelyett, hogy összefűzné ezeket a FASTQ-fájlokat az illesztés és a variánskeresés előtt, közvetlenül elküldheti ezeket a bemeneteket az msgen
ügyfélnek. Az msgen
ügyfél kimenete egyetlen fájlkészlet lesz, köztük egy .bam, .bai és .vcf fájl.
Ne feledje azonban, hogy FASTQ- és BAM-fájlokat nem küldhet egyszerre. Emellett ügyeljen rá, hogy nem küldhet több FASTQ- vagy BAM-fájlt, amelyek több személytől származnak.
Ez a cikk feltételezi, hogy már telepítette és futtatta az msgen
ügyfelet, és megismerkedett az Azure Storage használatával. Ha sikeresen elküldött egy munkafolyamatot a megadott mintaadatokkal, készen áll a cikk folytatására.
Több BAM-fájl
Bemeneti fájlok feltöltése az Azure Storage-ba
Tegyük fel, hogy a bemenet több BAM-fájlból áll (reads.bam, additional_reads.bam, és yet_more_reads.bam), amelyeket feltöltött saját myaccount nevű tárfiókjába az Azure-ban. Emellett rendelkezik az API URL-címével és a hozzáférési kulccsal. Azt szeretné, hogy a kimenetek a következő helyre kerüljenek: https://myaccount.blob.core.windows.net/outputs.
Feladat elküldése az msgen
-ügyfélnek
Egyszerre több BAM-fájlt is elküldhet, ha megadj a fájlok neveit az --input-blob-name-1 argumentumban. Ne feledje, hogy minden fájlnak egyazon mintából kell származnia, a sorrendjük azonban nem számít. A következő részben parancssorból történő küldésre láthat példát Windows és Unix rendszerben, valamint egy konfigurációs fájl használatával. A sortörések az átláthatóság érdekében lettek hozzáadva:
Windows esetén:
msgen submit ^
--api-url-base <Genomics API URL> ^
--access-key <Genomics access key> ^
--process-args R=b37m1 ^
--input-storage-account-name myaccount ^
--input-storage-account-key <storage access key to "myaccount"> ^
--input-storage-account-container inputs ^
--input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
--output-storage-account-name myaccount ^
--output-storage-account-key <storage access key to "myaccount"> ^
--output-storage-account-container outputs
Unix esetén:
msgen submit \
--api-url-base <Genomics API URL> \
--access-key <Genomics access key> \
--process-args R=b37m1 \
--input-storage-account-name myaccount \
--input-storage-account-key <storage access key to "myaccount"> \
--input-storage-account-container inputs \
--input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
--output-storage-account-name myaccount \
--output-storage-account-key <storage access key to "myaccount"> \
--output-storage-account-container outputs
Ha inkább konfigurációs fájlt szeretne használni, annak a következőket kell tartalmaznia:
api_url_base: <Genomics API URL>
access_key: <Genomics access key>
process_args: R=b37m1
input_storage_account_name: myaccount
input_storage_account_key: <storage access key to "myaccount">
input_storage_account_container: inputs
input_blob_name_1: reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name: myaccount
output_storage_account_key: <storage access key to "myaccount">
output_storage_account_container: outputs
Küldje el a config.txt
fájlt a következő hívással: msgen submit -f config.txt
Több párosított FASTQ-fájl
Bemeneti fájlok feltöltése az Azure Storage-ba
Tegyük fel, hogy több párosított FASTQ-fájl van bemenetként, reads_1.fq.gz és reads_2.fq.gz, additional_reads_1.fq.gz és additional_reads_2.fq.gz, valamint yet_more_reads_1.fq.gz és yet_more_reads_2.fq.gz. Az említett fájlokat már feltöltötte myaccount nevű Azure-beli tárfiókjába, valamint rendelkezik az API URL-címével és a hozzáférési kulccsal. Azt szeretné, hogy a kimenetek a következő helyre kerüljenek: https://myaccount.blob.core.windows.net/outputs.
Feladat elküldése az msgen
-ügyfélnek
A párosított FASTQ-fájloknak nem csupán egyazon mintából kell származniuk, de együtt is kell feldolgozni azokat. A fájlok sorrendje számít, ha argumentumként kerülnek az --input-blob-name-1 és --input-blob-name-2 argumentumokba.
A következő részben parancssorból történő küldésre láthat példát Windows és Unix rendszerben, valamint egy konfigurációs fájl használatával. A sortörések az átláthatóság érdekében lettek hozzáadva:
Windows esetén:
msgen submit ^
--api-url-base <Genomics API URL> ^
--access-key <Genomics access key> ^
--process-args R=b37m1 ^
--input-storage-account-name myaccount ^
--input-storage-account-key <storage access key to "myaccount"> ^
--input-storage-account-container inputs ^
--input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
--input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
--output-storage-account-name myaccount ^
--output-storage-account-key <storage access key to "myaccount"> ^
--output-storage-account-container outputs
Unix esetén:
msgen submit \
--api-url-base <Genomics API URL> \
--access-key <Genomics access key> \
--process-args R=b37m1 \
--input-storage-account-name myaccount \
--input-storage-account-key <storage access key to "myaccount"> \
--input-storage-account-container inputs \
--input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
--input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
--output-storage-account-name myaccount \
--output-storage-account-key <storage access key to "myaccount"> \
--output-storage-account-container outputs
Ha inkább konfigurációs fájlt szeretne használni, annak a következőket kell tartalmaznia:
api_url_base: <Genomics API URL>
access_key: <Genomics access key>
process_args: R=b37m1
input_storage_account_name: myaccount
input_storage_account_key: <storage access key to "myaccount">
input_storage_account_container: inputs
input_blob_name_1: reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2: reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name: myaccount
output_storage_account_key: <storage access key to "myaccount">
output_storage_account_container: outputs
Küldje el a config.txt
fájlt a következő hívással: msgen submit -f config.txt
Következő lépések
Ebben a cikkben több BAM-fájlt vagy párosított FASTQ-fájlt töltött fel az Azure Storage-ba, és egy munkafolyamatot küldött a Microsoft Genomics szolgáltatásnak a msgen
Python-ügyfélen keresztül. A munkafolyamatok elküldésével, illetve a Microsoft Genomics szolgáltatásban használható egyéb parancsokkal kapcsolatos további információkért tekintse meg a gyakori kérdéseket.