Envío de un flujo de trabajo con varias entradas del mismo ejemploSubmit a workflow using multiple inputs from the same sample

Este artículo demuestra cómo enviar un flujo de trabajo al servicio de Microsoft Genomics, si la entrada son varios archivos FASTQ o BAM procedentes del mismo ejemplo.This article demonstrates how to submit a workflow to the Microsoft Genomics service if your input file is multiple FASTQ or BAM files coming from the same sample. Por ejemplo, si ha ejecutado el mismo ejemplo en varias líneas en el secuenciador, el secuenciador podría generar un par de archivos FASTQ para cada línea.For example, if you ran the same sample in multiple lanes on the sequencer, the sequencer could output a pair of FASTQ files for each lane. En lugar de concatenar estos archivos FASTQ antes del alineamiento y variant calling, puede enviar directamente todas estas entradas al cliente msgen.Rather than concatenating these FASTQ files prior to alignment and variant calling, you can directly submit all of these inputs to the msgen client. La salida del cliente msgen sería un único conjunto de archivos entre los que se incluirían un archivo .bam, un archivo .bai y un archivo .vcf.The output from the msgen client would be a single set of files, including a .bam, .bai, .vcf file.

Tenga en cuenta, sin embargo, que no puede mezclar archivos FASTQ y BAM en el mismo envío.Keep in mind, however, that you cannot mix FASTQ and BAM files in the same submission. Además, tampoco es posible enviar varios archivos FASTQ o BAM de varios individuos.Further, you cannot submit multiple FASTQ or BAM files from multiple individuals.

En este artículo se da por supuesto que ya ha instalado y ejecutado el cliente msgen y está familiarizado con el uso de Azure Storage.This article assumes you have already installed and run the msgen client, and are familiar with how to use Azure Storage. Si ha enviado correctamente un flujo de trabajo usando los datos de ejemplo proporcionados, puede continuar con este artículo.If you have successfully submitted a workflow using the provided sample data, you are ready to proceed with this article.

Varios archivos BAMMultiple BAM files

Carga de los archivos de entrada en Azure StorageUpload your input files to Azure storage

Supongamos que tiene varios archivos BAM como entrada, reads.bam, additional_reads.bam y yet_more_reads.bam, y los ha cargado en su cuenta de almacenamiento myaccount de Azure.Let’s assume you have multiple BAM files as input, reads.bam, additional_reads.bam, and yet_more_reads.bam, and you have uploaded them to your storage account myaccount in Azure. Tiene la dirección URL de la API y la clave de acceso.You have the API URL and your access key. Desea los resultados en https://myaccount.blob.core.windows.net/outputs .You want to have outputs in https://myaccount.blob.core.windows.net/outputs.

Envío del trabajo al cliente msgenSubmit your job to the msgen client

Puede enviar varios archivos BAM pasando todos sus nombres al argumento --input-blob-name-1.You can submit multiple BAM files by passing all their names to the --input-blob-name-1 argument. Tenga en cuenta que todos los archivos deben provenir del mismo ejemplo, pero su orden no es importante.Note that all files should come from the same sample, but their order is not important. En la siguiente sección se describen envíos de ejemplo desde una línea de comandos en Windows, en Unix y con un archivo de configuración.The following section details example submissions from a command line in Windows, in Unix, and using a configuration file. Para mayor claridad, se agregan saltos de línea:Line breaks are added for clarity:

Para Windows:For Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:For Unix

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Si prefiere usar un archivo de configuración, esto es lo que podría contener:If you prefer using a configuration file, here is what it would contain:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Envíe el archivo config.txt con esta invocación: msgen submit -f config.txtSubmit the config.txt file with this invocation: msgen submit -f config.txt

Varios archivos FASTQ emparejadosMultiple paired FASTQ files

Carga de los archivos de entrada en Azure StorageUpload your input files to Azure storage

Supongamos que tiene varios archivos FASTQ emparejados como entrada, reads_1.fq.gz y reads_2.fq.gz, additional_reads_1.fq.gz y additional_reads_2.fq.gz, y yet_more_reads_1.fq.gz y yet_more_reads_2.fq.gz.Let’s assume you have multiple paired FASTQ files as input, reads_1.fq.gz and reads_2.fq.gz, additional_reads_1.fq.gz and additional_reads_2.fq.gz, and yet_more_reads_1.fq.gz and yet_more_reads_2.fq.gz. Los ha cargado en su cuenta de almacenamiento myaccount de Azure y tiene la dirección URL de la API y la clave de acceso.You have uploaded them to your storage account myaccount in Azure and you.have the API URL and your access key. Desea los resultados en https://myaccount.blob.core.windows.net/outputs .You want to have outputs in https://myaccount.blob.core.windows.net/outputs.

Envío del trabajo al cliente msgenSubmit your job to the msgen client

Los archivos FASTQ emparejados no solo deben proceder del mismo ejemplo, sino que también deben procesarse de forma conjunta.Paired FASTQ files not only need to come from the same sample, but they also need to be processed together. Cuando los nombres de archivo se pasan como argumentos --input-blob-name-1 e --input-blob-name-2, su orden es importante.The order of the file names matters when they are passed as arguments to --input-blob-name-1 and --input-blob-name-2.

En la siguiente sección se describen envíos de ejemplo desde una línea de comandos en Windows, en Unix y con un archivo de configuración.The following section details example submissions from a command line in Windows, in Unix, and using a configuration file. Para mayor claridad, se agregan saltos de línea:Line breaks are added for clarity:

Para Windows:For Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:For Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Si prefiere usar un archivo de configuración, esto es lo que podría contener:If you prefer using a configuration file, here is what it would contain:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Envíe el archivo config.txt con esta invocación: msgen submit -f config.txtSubmit the config.txt file with this invocation: msgen submit -f config.txt

Pasos siguientesNext steps

En este artículo, se cargan varios archivos BAM o FASTQ emparejados en Azure Storage y se envía un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen.In this article, you uploaded multiple BAM files or paired FASTQ files into Azure Storage and submitted a workflow to the Microsoft Genomics service through the msgen python client. Para más información sobre el envío del flujo de trabajo y otros comandos que puede usar con el servicio Microsoft Genomics, vea las preguntas más frecuentes.For more information regarding workflow submission and other commands you can use with the Microsoft Genomics service, see the FAQ.