Отправка рабочего процесса с помощью нескольких входных данных из одного примераSubmit a workflow using multiple inputs from the same sample

В этой статье показано, как отправить рабочий процесс в службу Microsoft Genomics, если входной файл является несколько файлов FASTQ или BAM из одного примера.This article demonstrates how to submit a workflow to the Microsoft Genomics service if your input file is multiple FASTQ or BAM files coming from the same sample. Например, если вы запустили тот же пример в нескольких полосах в Sequencer, вы можете получить по паре файлов FASTQ для каждой полосы.For example, if you ran the same sample in multiple lanes on the sequencer, the sequencer could output a pair of FASTQ files for each lane. Вместо объединения этих файлов FASTQ до выравнивания и определения вариантов, можно отправить все эти входные данные непосредственно в клиент msgen.Rather than concatenating these FASTQ files prior to alignment and variant calling, you can directly submit all of these inputs to the msgen client. Выходные данные клиента msgen будут представлены одним набором файлов, включая файлы с расширениями .bam, .bai и .vcf.The output from the msgen client would be a single set of files, including a .bam, .bai, .vcf file.

Однако следует помнить, что нельзя смешивать FASTQ- и BAM-файлы в рамках одной отправки.Keep in mind, however, that you cannot mix FASTQ and BAM files in the same submission. Кроме того, вы не можете отправлять несколько файлов FASTQ или BAM от нескольких отдельных пользователей.Further, you cannot submit multiple FASTQ or BAM files from multiple individuals.

В этой статье предполагается, что вы уже установили и запустили клиент msgen и знаете, как использовать службу хранилища Azure.This article assumes you have already installed and run the msgen client, and are familiar with how to use Azure Storage. Если вы успешно отправили рабочий процесс с помощью предоставленных образцов данных, вы готовы перейти к этой статье.If you have successfully submitted a workflow using the provided sample data, you are ready to proceed with this article.

Несколько BAM-файловMultiple BAM files

Передача входных файлов в службу хранилища AzureUpload your input files to Azure storage

Предположим, что у вас есть несколько BAM-файлов в качестве входных данных — reads.bam, additional_reads.bam и yet_more_reads.bam — и вы передали их в свою учетную запись хранения myaccount в Azure.Let’s assume you have multiple BAM files as input, reads.bam, additional_reads.bam, and yet_more_reads.bam, and you have uploaded them to your storage account myaccount in Azure. У вас есть URL-адрес API и ключ доступа.You have the API URL and your access key. Вы хотите разместить выходные данные на странице https://myaccount.blob.core.windows.net/outputs .You want to have outputs in https://myaccount.blob.core.windows.net/outputs.

Отправка задания в клиент msgenSubmit your job to the msgen client

Вы можете отправить несколько BAM-файлов, передав все их имена в аргумент --input-blob-name-1.You can submit multiple BAM files by passing all their names to the --input-blob-name-1 argument. Обратите внимание, что все файлы должны быть из одного примера, но их порядок не имеет значения.Note that all files should come from the same sample, but their order is not important. В следующих разделах представлены примеры отправки данных из командной строки в Windows и Unix, а также с помощью файла конфигурации.The following section details example submissions from a command line in Windows, in Unix, and using a configuration file. Разрывы строк добавлены для ясности.Line breaks are added for clarity:

Для Windows:For Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Для Unix:For Unix

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Если вы предпочитаете использовать файл конфигурации, он должен содержать следующие строки:If you prefer using a configuration file, here is what it would contain:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Отправьте файл config.txt с помощью этого вызова: msgen submit -f config.txtSubmit the config.txt file with this invocation: msgen submit -f config.txt

Несколько пар FASTQ-файловMultiple paired FASTQ files

Передача входных файлов в службу хранилища AzureUpload your input files to Azure storage

Предположим, что у вас есть несколько пар FASTQ-файлов в качестве входных данных — reads_1.fq.gz и reads_2.fq.gz, additional_reads_1.fq.gz и additional_reads_2.fq.gz, yet_more_reads_1.fq.gz и yet_more_reads_2.fq.gz.Let’s assume you have multiple paired FASTQ files as input, reads_1.fq.gz and reads_2.fq.gz, additional_reads_1.fq.gz and additional_reads_2.fq.gz, and yet_more_reads_1.fq.gz and yet_more_reads_2.fq.gz. Вы отправили их в свою учетную запись хранения myaccount в Azure, и у вас есть URL-адрес API и ключ доступа.You have uploaded them to your storage account myaccount in Azure and you.have the API URL and your access key. Вы хотите разместить выходные данные на странице https://myaccount.blob.core.windows.net/outputs .You want to have outputs in https://myaccount.blob.core.windows.net/outputs.

Отправка задания в клиент msgenSubmit your job to the msgen client

Пары FASTQ-файлов должны не только быть взяты из одного примера, но и обрабатываться вместе.Paired FASTQ files not only need to come from the same sample, but they also need to be processed together. Порядок имен файлов имеет значение при передаче их в качестве аргументов в --input-blob-name-1 и --input-blob-name-2.The order of the file names matters when they are passed as arguments to --input-blob-name-1 and --input-blob-name-2.

В следующих разделах представлены примеры отправки данных из командной строки в Windows и Unix, а также с помощью файла конфигурации.The following section details example submissions from a command line in Windows, in Unix, and using a configuration file. Разрывы строк добавлены для ясности.Line breaks are added for clarity:

Для Windows:For Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Для Unix:For Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Если вы предпочитаете использовать файл конфигурации, он должен содержать следующие строки:If you prefer using a configuration file, here is what it would contain:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Отправьте файл config.txt с помощью этого вызова: msgen submit -f config.txtSubmit the config.txt file with this invocation: msgen submit -f config.txt

Дальнейшие действияNext steps

Из этой статьи вы узнали, как передать несколько BAM-файлов или пар FASTQ-файлов в службу хранилища Azure и как отправить рабочий процесс в службу Microsoft Genomics через клиент Python msgen.In this article, you uploaded multiple BAM files or paired FASTQ files into Azure Storage and submitted a workflow to the Microsoft Genomics service through the msgen python client. Дополнительные сведения об отправке рабочего процесса и других командах, которые можно использовать в службе Microsoft Genomics, см. в разделе вопросов и ответов.For more information regarding workflow submission and other commands you can use with the Microsoft Genomics service, see the FAQ.