Inicio rápido: Ejecución de un flujo de trabajo mediante el servicio Microsoft GenomicsQuickstart: Run a workflow through the Microsoft Genomics service

Esta guía de inicio rápido muestra cómo cargar datos de entrada en Azure Blob Storage y cómo ejecutar un flujo de trabajo mediante el servicio Microsoft Genomics.This quickstart shows how to load input data into Azure Blob Storage and run a workflow through the Microsoft Genomics service. Microsoft Genomics es un servicio escalable y seguro para el análisis secundario que puede procesar rápidamente un genoma; este proceso empieza por lecturas de datos sin formato y produce lecturas alineadas y llamadas a variantes.Microsoft Genomics is a scalable, secure service for secondary analysis that can rapidly process a genome, starting from raw reads and producing aligned reads and variant calls.

Empiece a trabajar en unos pocos pasos:Get started in just a few steps:

  1. Configuración: cree una cuenta de Microsoft Genomics mediante Azure Portal e instale el cliente de Python de Microsoft Genomics en su entorno local.Set up: Create a Microsoft Genomics account through the Azure portal, and install the Microsoft Genomics Python client in your local environment.
  2. Carga de datos de entrada: cree una cuenta de Microsoft Azure Storage mediante Azure Portal y cargue los archivos de entrada.Upload input data: Create a Microsoft Azure storage account through the Azure portal, and upload the input files. Los archivos de entrada deben ser lecturas de extremos emparejados (archivos fastq o bam).The input files should be paired end reads (fastq or bam files).
  3. Ejecutar: use la interfaz de la línea de comandos de Microsoft Genomics para ejecutar flujos de trabajo mediante el servicio Microsoft Genomics.Run: Use the Microsoft Genomics command-line interface to run workflows through the Microsoft Genomics service.

Para más información sobre Microsoft Genomics, consulte What is Microsoft Genomics? (¿Qué es Microsoft Genomics?).For more information on Microsoft Genomics, see What is Microsoft Genomics?

Configuración: Creación de una cuenta de Microsoft Genomics en Azure PortalSet up: Create a Microsoft Genomics account in the Azure portal

Para crear una cuenta de Microsoft Genomics, vaya a Azure Portal.To create a Microsoft Genomics account, navigate to the Azure portal. Si aún no tiene una suscripción a Azure, cree una antes de crear una cuenta de Microsoft Genomics.If you don’t have an Azure subscription yet, create one before creating a Microsoft Genomics account.

Microsoft Genomics en Azure PortalMicrosoft Genomics on Azure portal

Configure la cuenta de Genomics con la siguiente información, como se muestra en la imagen anterior.Configure your Genomics account with the following information, as shown in the preceding image.

ConfiguraciónSetting Valor sugeridoSuggested value Descripción del campoField description
SubscriptionSubscription Nombre de la suscripciónYour subscription name Esta es la unidad de facturación para los servicios de Azure. Para más información sobre su suscripción, consulte el artículo Suscripciones.This is the billing unit for your Azure services - For details about your subscription see Subscriptions
Grupos de recursosResource group MyResourceGroupMyResourceGroup Los grupos de recursos le permiten agrupar varios recursos de Azure (cuenta de almacenamiento o cuenta genómica, entre otros) en un único grupo para una administración sencilla.Resource groups allow you to group multiple Azure resources (storage account, genomics account, etc.) into a single group for simple management. Para más información, consulte Grupos de recursos.For more information, see Resource Groups. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Convenciones de nomenclatura.For valid resource group names, see Naming Rules
Nombre de cuentaAccount name MyGenomicsAccountMyGenomicsAccount Elija un identificador de cuenta único.Choose a unique account identifier. Para ver los nombres válidos, consulte Convenciones de nomenclatura.For valid names, see Naming Rules
LocationLocation Oeste de EE. UU. 2West US 2 El servicio está disponible en Oeste de EE. UU. 2, Europa Occidental y Sudeste Asiático.Service is available in West US 2, West Europe, and Southeast Asia

Puede hacer clic en Notificaciones de la barra de menús superior para supervisar el proceso de implementación.You can click Notifications in the top menu bar to monitor the deployment process. Notificaciones de Microsoft GenomicsMicrosoft Genomics Notifications

Configuración: Instalación del cliente de Python de Microsoft GenomicsSet up: Install the Microsoft Genomics Python client

Los usuarios necesitan instalar tanto Python como el cliente de Python de Microsoft Genomics en su entorno local.Users need to install both Python and the Microsoft Genomics Python client in their local environment.

Instalación de PythonInstall Python

El cliente de Python de Microsoft Genomics es compatible con Python 2.7.The Microsoft Genomics Python client is compatible with Python 2.7. 12 o versión posterior a la 2.7.xx; 2.7.15 es la última versión en el momento de escribir este artículo; 2.7.14 es la versión recomendada.12 or later 2.7.xx version; 2.7.15 is the latest version at the time of this writing; 2.7.14 is the suggested version. Puede encontrar aquí la descarga.You can find the download here.

NOTA: Python 3.x no es compatible con Python 2.7.xx.NOTE: Python 3.x isn't compatible with Python 2.7.xx. MSGen es una aplicación de Python 2.7.MSGen is a Python 2.7 application. Al ejecutar MSGen, asegúrese de que su entorno de Python activo usa una versión 2.7.xx de Python.When running MSGen, make sure that your active Python environment is using a 2.7.xx version of Python. Es posible que reciba errores al intentar usar MSGen con una versión 3.x de Python.You may get errors when trying to use MSGen with a 3.x version of Python.

Instalación del cliente de Microsoft GenomicsInstall the Microsoft Genomics client

Utilice pip de Python para instalar el cliente de Microsoft Genomics msgen.Use Python pip to install the Microsoft Genomics client msgen. Las siguientes instrucciones asumen que Python ya está instalado en el sistema.The follow instructions assume Python is already in your system path. Si tiene problemas con una instalación de pip no reconocida, debe agregar Python y la subcarpeta de scripts a la ruta de acceso del sistema.If you have issues with pip install not recognized, you need to add Python and the scripts subfolder to your system path.

pip install --upgrade --no-deps msgen
pip install msgen

Si no desea instalar msgen como binario para todo el sistema ni modificar paquetes de Python en todo el sistema, utilice la marca –-user con pip.If you do not want to install msgen as a system-wide binary and modify system-wide Python packages, use the –-user flag with pip. Si utiliza la instalación basada en paquetes o setup.py, se instalan todos los paquetes necesarios.If you use the package-based installation or setup.py, all necessary required packages are installed. De lo contrario, los paquetes necesarios básicos para msgen sonOtherwise, the basic required packages for msgen are

Puede instalar estos paquetes mediante pip, easy_install o mediante procedimientos setup.py estándar.You can install these packages using pip, easy_install or through standard setup.py procedures.

Prueba del cliente de Microsoft GenomicsTest the Microsoft Genomics client

Para probar el cliente de Microsoft Genomics, descargue el archivo de configuración de la cuenta de Genomics.To test the Microsoft Genomics client, download the config file from your genomics account. Para ir a la cuenta de Genomics, haga clic en Todos los servicios en la parte superior izquierda, filtre y seleccione las cuentas de Genomics.Navigate to your genomics account by clicking All services in the top left, filtering, and selecting for genomics accounts.

Filtro para Microsoft Genomics en Azure PortalFilter for Microsoft Genomics on Azure portal

Seleccione la cuenta de Genomics que acaba de crear, vaya a Claves de acceso y descargue el archivo de configuración.Select the genomics account you just made, navigate to Access Keys and download the configuration file.

Descarga del archivo de configuración de Microsoft GenomicsDownload config file from Microsoft Genomics

Pruebe que el cliente de Python de Microsoft Genomics está trabajando con el siguiente comando:Test that the Microsoft Genomics Python client is working with the following command

msgen list -f “<full path where you saved the config file>”

Creación de una cuenta de Microsoft Azure StorageCreate a Microsoft Azure Storage Account

El servicio Microsoft Genomics espera que las entradas se almacenen como blobs en bloques en una cuenta de almacenamiento de Azure.The Microsoft Genomics service expects inputs to be stored as block blobs in an Azure storage account. También escribe archivos de salida como blobs en bloques en un contenedor especificado por el usuario en una cuenta de almacenamiento de Azure.It also writes output files as block blobs to a user-specified container in an Azure storage account. Las entradas y salidas pueden residir en diferentes cuentas de almacenamiento.The inputs and outputs can reside in different storage accounts. Si ya tiene los datos en una cuenta de almacenamiento de Azure, solo tiene que asegurarse de que se encuentran en la misma ubicación que la cuenta de Genomics.If you already have your data in an Azure storage account, you only need to make sure that it is in the same location as your Genomics account. En caso contrario, se incurre en cargos de salida al ejecutar el servicio Genomics.Otherwise, egress charges are incurred when running the Genomics service. Si aún no tiene una cuenta de Microsoft Azure Storage, necesita crear una y cargar sus datos.If you don’t yet have a Microsoft Azure Storage account, you need to create one and upload your data. Puede encontrar más información sobre las cuentas de Azure Storage aquí, incluido qué es una cuenta de almacenamiento y qué servicios proporciona.You can find more information about Azure Storage accounts here, including what a storage account is and what services it provides. Para crear una cuenta de Microsoft Azure Storage, vaya a Azure Portal.To create a Microsoft Azure Storage account, navigate to the Azure portal.

Hoja de creación de almacenamientoStorage create blade

Configure la cuenta de Storage con la siguiente información, como se muestra en la imagen anterior.Configure your Storage account with the following information, as shown in the preceding image. Utilice la mayoría de las opciones estándar para una cuenta de almacenamiento, especificando únicamente que la cuenta es de almacenamiento de blobs, no de uso general.Use most of the standard options for a storage account, specifying only that the account is blob storage, not general purpose. El almacenamiento de blobs puede ser de dos a cinco veces más rápido para cargas y descargas.Blob storage can be 2-5x faster for downloads and uploads. El modelo de implementación predeterminado, el de Resource Manager, es el modelo recomendado.The default deployment model, resource manager, is recommended.

ConfiguraciónSetting Valor sugeridoSuggested value Descripción del campoField description
SubscriptionSubscription Su suscripción de AzureYour Azure subscription Para más información acerca la suscripción, consulte Suscripciones.For details about your subscription see Subscriptions
Grupos de recursosResource group MyResourceGroupMyResourceGroup Puede seleccionar el mismo grupo de recursos que la cuenta de Genomics.You can select the same resource group as your genomics account. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Convenciones de nomenclatura.For valid resource group names, see Naming Rules
Nombre de la cuenta de almacenamientoStorage account name MyStorageAccountMyStorageAccount Elija un identificador de cuenta único.Choose a unique account identifier. Para ver los nombres válidos, consulte Convenciones de nomenclatura.For valid names, see Naming Rules
LocationLocation Oeste de EE. UU. 2West US 2 Utilice la misma ubicación que la ubicación de su cuenta de Genomics para reducir los cargos de salida y la latencia.Use the same location as the location of your genomics account, to reduce egress charges, and reduce latency.
RendimientoPerformance EstándarStandard El valor predeterminado es Estándar.The default is standard. Para obtener más detalles sobre las cuentas de almacenamiento estándar y premium, consulte Introducción a Microsoft Azure Storage.For more details on standard and premium storage accounts, see Introduction to Microsoft Azure Storage
Tipo de cuentaAccount kind Almacenamiento de blobsBlob storage El almacenamiento de blobs puede ser de dos a cinco veces más rápido que el uso general para cargas y descargas.Blob storage can be 2-5x faster than general purpose for downloads and uploads.
ReplicaciónReplication Almacenamiento con redundancia localLocally redundant storage El almacenamiento con redundancia local replica los datos en el centro de datos de la región en la que creó la cuenta de almacenamiento.Locally redundant storage replicates your data within the datacenter in the region you created your storage account. Para más información, consulte Replicación de Azure Storage.For more information, see Azure Storage replication
Nivel de accesoAccess tier Acceso frecuenteHot Un acceso frecuente indica los objetos a los que se accederá con mayor frecuencia en la cuenta de almacenamiento.Hot access indicates objects in the storage account will be more frequently accessed.

Después, haga clic en Review + create para crear la cuenta de almacenamiento.Then click Review + create to create your storage account. Al igual que hizo con la creación de su cuenta de Genomics, puede hacer clic en Notificaciones en la barra de menús superior para supervisar el proceso de implementación.As you did with the creation of your Genomics Account, you can click Notifications in the top menu bar to monitor the deployment process.

Carga de los datos de entrada en la cuenta de almacenamientoUpload input data to your storage account

El servicio Microsoft Genomics espera lecturas de extremos emparejados como archivos de entrada.The Microsoft Genomics service expects paired end reads as input files. Puede elegir entre cargar sus propios datos o explorarlos mediante los datos de muestra disponibles públicamente que se le proporcionan.You can choose to either upload your own data, or explore using publicly available sample data provided for you. Si desea usar los datos de ejemplo disponibles públicamente, se hospedan aquí:If you would like to use the publicly available sample data, it is hosted here:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

Dentro de la cuenta de almacenamiento, necesita crear un contenedor de blobs para los datos de entrada y un segundo contenedor de blobs para los datos de salida.Within your storage account, you need to make one blob container for your input data and a second blob container for your output data. Cargue los datos de entrada en el contenedor de blobs de entrada.Upload the input data into your input blob container. Se pueden utilizar varias herramientas para ello, como Explorador de Microsoft Azure Storage, blobporter o AzCopy.Various tools can be used to do this, including Microsoft Azure Storage Explorer, blobporter, or AzCopy.

Ejecución de un flujo de trabajo con el servicio Microsoft Genomics mediante el cliente de PythonRun a workflow through the Microsoft Genomics service using the Python client

Para ejecutar un flujo de trabajo mediante el servicio Microsoft Genomics, edite el archivo config.txt para especificar el contenedor de almacenamiento de entrada y salida para los datos.To run a workflow through the Microsoft Genomics service, edit the config.txt file to specify the input and output storage container for your data. Abra el archivo config.txt que descargó desde la cuenta de Genomics.Open the config.txt file that you downloaded from your Genomics account. Las secciones que necesita especificar son la clave de suscripción y los seis elementos situados en la parte inferior, el nombre de la cuenta de almacenamiento, la clave y el nombre del contenedor tanto para la entrada como para la salida.The sections you need to specify are your subscription key and the six items at the bottom, the storage account name, key and container name for both the input and output. Para encontrar esta información, navegue por el portal hasta las claves de acceso de su cuenta de almacenamiento, o directamente desde el Explorador de Azure Storage.You can find this information by navigating in the portal to Access keys for your storage account, or directly from the Azure Storage Explorer.

Configuración de GenomicsGenomics config

Si desea ejecutar GATK4, establezca el parámetro process_name en gatk4.If you would like to run GATK4, set the process_name parameter to gatk4.

De forma predeterminada, el servicio Genomics genera archivos VCF.By default, the Genomics service outputs VCF files. Si prefiere una salida gVCF en lugar de una salida VCF (equivalente a -emitRefConfidence en GATK 3.x y a emit-ref-confidence en GATK 4.x), agregue el parámetro emit_ref_confidence a config.txt y establézcalo en gvcf como se indica en la figura anterior.If you would like a gVCF output rather than a VCF output (equivalent to -emitRefConfidence in GATK 3.x and emit-ref-confidence in GATK 4.x), add the emit_ref_confidence parameter to your config.txt and set it to gvcf, as shown in the above figure. Para volver a la salida VCF, quítela del archivo config.txt o establezca el parámetro emit_ref_confidence en none.To change back to VCF output, either remove it from the config.txt file or set the emit_ref_confidence parameter to none.

Envíe el flujo de trabajo al cliente del servicio Microsoft GenomicsSubmit your workflow to the Microsoft Genomics service the Microsoft Genomics client

Utilice el cliente de Python de Microsoft Genomics para enviar el flujo de trabajo con el siguiente comando:Use the Microsoft Genomics Python client to submit your workflow with the following command:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Puede ver el estado de los flujos de trabajo con el siguiente comando:You can view the status of your workflows using the following command:

msgen list -f c:\temp\config.txt 

Una vez completado el flujo de trabajo, puede ver los archivos de salida en la cuenta de Azure Storage, en el contenedor de salida que ha configurado.Once your workflow completes, you can view the output files in your Azure Storage Account in the output container that you configured.

Pasos siguientesNext steps

En este artículo, se van a cargar datos de entrada de ejemplo en Azure Storage y se va a enviar un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen.In this article, you uploaded sample input data into Azure Storage and submitted a workflow to the Microsoft Genomics service through the msgen Python client. Para más información sobre otros tipos de archivo de entrada que pueden utilizarse con el servicio Microsoft Genomics, consulte las páginas siguientes: Archivos FASTQ emparejados | BAM | Varios archivos FASTQ o BAM.To learn more about other input file types that can be used with the Microsoft Genomics service, see the following pages: paired FASTQ | BAM | Multiple FASTQ or BAM. También puede explorar este tutorial utilizando nuestro tutorial de Notebook de Azure.You can also explore this tutorial using our Azure notebook tutorial.