Отправка рабочего процесса с помощью входных FASTQ-файлов в Microsoft Genomics

В этой статье показано, как отправить рабочий процесс в службу Microsoft Genomics, если входные файлы являются одной парой FASTQ-файлов. В этом разделе предполагается, что вы уже установили и запустили клиент msgen и знаете, как использовать службу хранилища Azure. Если вы успешно отправили рабочий процесс с использованием предоставленного примера данных, можно продолжить работу с этой статьей.

Настройка: передача FASTQ-файлов в службу хранилища Azure

Предположим, что у вас есть два файла — reads_1.fq.gz и reads_2.fq.gz — и вы отправили их в свою учетную запись хранения myaccount в Azure как https://myaccount.blob.core.windows.net/inputs/reads_1.fq.gz и https://myaccount.blob.core.windows.net/inputs/reads_2.fq.gz. У вас есть URL-адрес API и ключ доступа. Вы хотите разместить выходные данные на странице https://myaccount.blob.core.windows.net/outputs.

Отправка задания в клиент msgen

Минимальный набор аргументов, которые потребуется предоставить клиенту msgen (для наглядности добавлены разрывы строк):

Для Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fq.gz ^
  --input-blob-name-2 reads_2.fq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Для Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fq.gz \
  --input-blob-name-2 reads_2.fq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Если вы предпочитаете использовать файл конфигурации, он должен содержать следующие строки:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz
input_blob_name_2:                reads_2.fq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Отправьте файл config.txt с помощью этого вызова: msgen submit -f config.txt

Дальнейшие действия

С помощью этой статьи вы научились отправлять пару FASTQ-файлов в службу хранилища Azure и освоили отправку рабочего процесса в службу Microsoft Genomics через клиент Python msgen. Дополнительные сведения об отправке рабочего процесса и других командах, которые можно использовать в службе Microsoft Genomics, см. в разделе часто задаваемых вопросов.