Een werkstroom verzenden met behulp van FASTQ-bestandsinvoer in Microsoft Genomics

In dit artikel wordt beschreven hoe u een werkstroom verzendt naar de Microsoft Genomics-service als uw invoerbestanden uit één paar FASTQ-bestanden bestaan. In dit onderwerp wordt ervan uitgegaan dat u de msgen-client al hebt geïnstalleerd en uitgevoerd, en dat u bekend bent met het gebruik van Azure Storage. Als u een werkstroom hebt ingediend met behulp van de opgegeven voorbeeldgegevens, bent u klaar om verder te gaan met dit artikel.

Instellen: uw FASTQ-bestand uploaden naar Azure-opslag

Stel dat u twee bestanden hebt, reads_1.fq.gz en reads_2.fq.gz, en u ze hebt geüpload naar uw opslagaccount myaccount in Azure als https://myaccount.blob.core.windows.net/inputs/reads_1.fq.gz en https://myaccount.blob.core.windows.net/inputs/reads_2.fq.gz. U hebt de URL van de API en uw toegangssleutel. U wilt de uitvoer in https://myaccount.blob.core.windows.net/outputs hebben.

De taak naar de msgen-client verzenden

Dit is de minimale set argumenten die u dient op te geven voor de msgen-client; voor de duidelijkheid zijn regeleinden toegevoegd:

Voor Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fq.gz ^
  --input-blob-name-2 reads_2.fq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Voor Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fq.gz \
  --input-blob-name-2 reads_2.fq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Als u liever een configuratiebestand gebruikt, is dit wat het zou moeten bevatten:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz
input_blob_name_2:                reads_2.fq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Verzend het config.txt-bestand met deze aanroep: msgen submit -f config.txt

Volgende stappen

In dit artikel hebt u een paar FASTQ-bestanden geüpload naar Azure Storage en een werkstroom verzonden naar de Microsoft Genomics-service via de msgen Python-client. Zie onze veelgestelde vragen voor meer informatie over het verzenden van werkstromen en andere opdrachten die u kunt gebruiken met de Microsoft Genomics-service.