Início Rápido: Executar um fluxo de trabalho através do serviço Microsoft GenomicsQuickstart: Run a workflow through the Microsoft Genomics service

Este início rápido mostra como carregar dados de entrada para o Armazenamento de Blobs do Azure e executar um fluxo de trabalho através do serviço Microsoft Genomics.This quickstart shows how to load input data into Azure Blob Storage and run a workflow through the Microsoft Genomics service. O Microsoft Genomics é um serviço dimensionável e seguro para análise secundária que consegue processar rapidamente um genoma, a partir de leituras não processadas e ao produzir leituras alinhadas e chamadas variantes.Microsoft Genomics is a scalable, secure service for secondary analysis that can rapidly process a genome, starting from raw reads and producing aligned reads and variant calls.

Começar em apenas alguns passos:Get started in just a few steps:

  1. Configurar: crie uma conta do Microsoft Genomics através do portal do Azure e instale o cliente Microsoft Genomics Python no ambiente local.Set up: Create a Microsoft Genomics account through the Azure portal, and install the Microsoft Genomics Python client in your local environment.
  2. Carregar dados de entrada: crie uma conta de armazenamento do Microsoft Azure através do portal do Azure e carregue os ficheiros de entrada.Upload input data: Create a Microsoft Azure storage account through the Azure portal, and upload the input files. Os ficheiros de entrada devem ser leituras finais emparelhadas (ficheiros fastq ou bam).The input files should be paired end reads (fastq or bam files).
  3. Executar: utilize a interface de linha de comandos do Microsoft Genomics para executar fluxos de trabalho através do serviço Microsoft Genomics.Run: Use the Microsoft Genomics command-line interface to run workflows through the Microsoft Genomics service.

Para obter mais informações sobre o Microsoft Genomics, veja Novidades do Microsoft GenomicsFor more information on Microsoft Genomics, see What is Microsoft Genomics?

Configurar: criar uma conta do Microsoft Genomics no portal do AzureSet up: Create a Microsoft Genomics account in the Azure portal

Para criar uma conta do Microsoft Genomics, navegue para o portal do Azure.To create a Microsoft Genomics account, navigate to the Azure portal. Se ainda não tiver uma subscrição do Azure, crie uma antes de criar uma conta do Microsoft Genomics.If you don’t have an Azure subscription yet, create one before creating a Microsoft Genomics account.

Microsoft Genomics em portal do AzureMicrosoft Genomics on Azure portal

Configure a conta do Genomics com as informações seguintes, conforme mostrado na imagem anterior.Configure your Genomics account with the following information, as shown in the preceding image.

DefiniçãoSetting Valor sugeridoSuggested value Descrição do campoField description
SubscriçãoSubscription Nome da sua subscriçãoYour subscription name Trata-se da unidade de faturação dos serviços do Azure. Para obter detalhes sobre a sua subscrição, veja SubscriçõesThis is the billing unit for your Azure services - For details about your subscription see Subscriptions
Grupo de recursosResource group MyResourceGroupMyResourceGroup Os grupos de recursos permitem-lhe agrupar múltiplos recursos do Azure (conta de armazenamento, conta do Genomics, etc.) num único grupo de gestão simples.Resource groups allow you to group multiple Azure resources (storage account, genomics account, etc.) into a single group for simple management. Para obter mais informações, veja Grupos de Recursos.For more information, see Resource Groups. Para obter os nomes de grupos de recursos válidos, veja Regras de NomenclaturaFor valid resource group names, see Naming Rules
Nome da contaAccount name MyGenomicsAccountMyGenomicsAccount Escolha um identificador de conta exclusivo.Choose a unique account identifier. Para obter os nomes válidos, veja Regras de NomenclaturaFor valid names, see Naming Rules
LocalizaçãoLocation EUA Oeste 2West US 2 O serviço está disponível nas regiões E.U.A. Oeste 2, Europa Ocidental e Sudeste AsiáticoService is available in West US 2, West Europe, and Southeast Asia

Pode clicar em Notificações na barra de menus superior para monitorizar o processo de implementação.You can click Notifications in the top menu bar to monitor the deployment process. Notificações de Microsoft GenomicsMicrosoft Genomics Notifications

Configurar: instalar o cliente Microsoft Genomics PythonSet up: Install the Microsoft Genomics Python client

Os utilizadores têm de instalar o Python e o cliente Microsoft Genomics Python no respetivo ambiente local.Users need to install both Python and the Microsoft Genomics Python client in their local environment.

Instalar o PythonInstall Python

O cliente Microsoft Genomics Python é compatível com o Python 2.7.The Microsoft Genomics Python client is compatible with Python 2.7. versão 2.7.xx 12 ou posterior; 2.7.15 é a versão mais recente no momento em que este artigo foi escrito; 2.7.14 é a versão sugerida.12 or later 2.7.xx version; 2.7.15 is the latest version at the time of this writing; 2.7.14 is the suggested version. Pode encontrar a transferência aqui.You can find the download here.

Nota: o Python 3.x não é compatível com o Python 2.7.xx.NOTE: Python 3.x isn't compatible with Python 2.7.xx. O MSGen é uma aplicação do Python 2.7.MSGen is a Python 2.7 application. Ao executar o MSGen, certifique-se de que o seu ambiente ativo do Python está a utilizar uma versão 2.7.xx do Python.When running MSGen, make sure that your active Python environment is using a 2.7.xx version of Python. Poderá receber erros ao tentar utilizar o MSGen com uma versão 3.x do Python.You may get errors when trying to use MSGen with a 3.x version of Python.

Instalar o cliente Microsoft GenomicsInstall the Microsoft Genomics client

Utilize o pip do Python para instalar o cliente Microsoft Genomics msgen.Use Python pip to install the Microsoft Genomics client msgen. As instruções seguintes partem do princípio de que o Python já se encontra no caminho do sistema.The follow instructions assume Python is already in your system path. Se tiver problemas com o não reconhecimento da instalação do pip, tem de adicionar o Python e a subpasta de scripts ao caminho do sistema.If you have issues with pip install not recognized, you need to add Python and the scripts subfolder to your system path.

pip install --upgrade --no-deps msgen
pip install msgen

Se não quiser instalar msgen como um binário e modificar os pacotes do Python em todo o sistema, utilize o sinalizador –-user com pip.If you do not want to install msgen as a system-wide binary and modify system-wide Python packages, use the –-user flag with pip. Se utilizar a instalação baseada em pacotes ou setup.py, serão instalados todos os pacotes necessários.If you use the package-based installation or setup.py, all necessary required packages are installed. Caso contrário, os pacotes básicos necessários para msgen sãoOtherwise, the basic required packages for msgen are

Pode instalar estes pacotes com pip, easy_install ou através dos procedimentos padrão setup.py.You can install these packages using pip, easy_install or through standard setup.py procedures.

Testar o cliente Microsoft GenomicsTest the Microsoft Genomics client

Para testar o cliente Microsoft Genomics, transfira o ficheiro de configuração a partir da sua conta do Genomics.To test the Microsoft Genomics client, download the config file from your genomics account. Navegue para a sua conta do Genomics ao clicar em Todos os serviços na parte superior esquerda e filtre e selecione as contas do Genomics.Navigate to your genomics account by clicking All services in the top left, filtering, and selecting for genomics accounts.

Filtrar por Microsoft Genomics em portal do AzureFilter for Microsoft Genomics on Azure portal

Selecione a conta do Genomics que acabou de criar, navegue para Chaves de Acesso e transfira o ficheiro de configuração.Select the genomics account you just made, navigate to Access Keys and download the configuration file.

Baixar arquivo de configuração de Microsoft GenomicsDownload config file from Microsoft Genomics

Teste se o cliente Microsoft Genomics Python está a funcionar com o seguinte comandoTest that the Microsoft Genomics Python client is working with the following command

msgen list -f “<full path where you saved the config file>”

Criar uma conta de Armazenamento do Microsoft AzureCreate a Microsoft Azure Storage account

O serviço Microsoft Genomics espera que as entradas sejam armazenadas como blobs de blocos numa conta de armazenamento do Azure.The Microsoft Genomics service expects inputs to be stored as block blobs in an Azure storage account. Também escreve os ficheiros de saída como blobs de blocos num contentor especificado pelo utilizador numa conta de armazenamento do Azure.It also writes output files as block blobs to a user-specified container in an Azure storage account. As entradas e saídas podem residir em contas de armazenamento diferentes.The inputs and outputs can reside in different storage accounts. Se já tiver os dados numa conta de armazenamento do Azure, basta certificar-se de que está na mesma localização da conta do Genomics.If you already have your data in an Azure storage account, you only need to make sure that it is in the same location as your Genomics account. Caso contrário, são cobradas taxas de saída quando executar o serviço Genomics.Otherwise, egress charges are incurred when running the Genomics service. Se ainda não tiver uma conta de Armazenamento do Microsoft Azure, tem de criar uma e carregar os dados.If you don’t yet have a Microsoft Azure Storage account, you need to create one and upload your data. Pode encontrar mais informações sobre contas de Armazenamento do Azure aqui, incluindo o que é uma conta de armazenamento e que serviços fornece.You can find more information about Azure Storage accounts here, including what a storage account is and what services it provides. Para criar uma conta de Armazenamento do Microsoft Azure, navegue para o portal do Azure.To create a Microsoft Azure Storage account, navigate to the Azure portal.

Folha de criação de armazenamentoStorage create blade

Configure a conta de Armazenamento com as informações seguintes, conforme mostrado na imagem anterior.Configure your Storage account with the following information, as shown in the preceding image. Utilize a maioria das opções padrão de uma conta de armazenamento e especifique apenas que a conta é o armazenamento de blobs e não para fins gerais.Use most of the standard options for a storage account, specifying only that the account is blob storage, not general purpose. O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido para transferências e carregamentos.Blob storage can be 2-5x faster for downloads and uploads. O modelo de implantação padrão, Azure Resource Manager, é recomendado.The default deployment model, Azure Resource Manager, is recommended.

DefiniçãoSetting Valor sugeridoSuggested value Descrição do campoField description
SubscriçãoSubscription A sua subscrição do AzureYour Azure subscription Para obter detalhes sobre a sua subscrição, veja SubscriçõesFor details about your subscription see Subscriptions
Grupo de recursosResource group MyResourceGroupMyResourceGroup Pode selecionar o mesmo grupo de recursos como a sua conta do Genomics.You can select the same resource group as your genomics account. Para obter os nomes de grupos de recursos válidos, veja Regras de NomenclaturaFor valid resource group names, see Naming Rules
Nome da conta de armazenamentoStorage account name MyStorageAccountMyStorageAccount Escolha um identificador de conta exclusivo.Choose a unique account identifier. Para obter os nomes válidos, veja Regras de NomenclaturaFor valid names, see Naming Rules
LocalizaçãoLocation EUA Oeste 2West US 2 Utilize a mesma localização como localização da sua conta do Genomics, para reduzir os custos de saída e a latência.Use the same location as the location of your genomics account, to reduce egress charges, and reduce latency.
DesempenhoPerformance StandardStandard A predefinição é Standard.The default is standard. Para obter mais detalhes sobre as contas de armazenamento standard e premium, veja Introdução ao Armazenamento do Microsoft AzureFor more details on standard and premium storage accounts, see Introduction to Microsoft Azure Storage
Tipo de contaAccount kind Armazenamento de blobsBlob storage O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido do que para fins gerais para transferências e carregamentos.Blob storage can be 2-5x faster than general purpose for downloads and uploads.
ReplicaçãoReplication Armazenamento localmente redundanteLocally redundant storage O armazenamento localmente redundante replica os dados no datacenter na região em que foi criada a conta de armazenamento.Locally redundant storage replicates your data within the datacenter in the region you created your storage account. Para obter mais informações, veja Replicação do Armazenamento do AzureFor more information, see Azure Storage replication
Escalão de acessoAccess tier Acesso FrequenteHot Um acesso frequente indica que os objetos na conta de armazenamento serão acedidos com mais frequência.Hot access indicates objects in the storage account will be more frequently accessed.

Em seguida, clique em Review + create para criar sua conta de armazenamento.Then click Review + create to create your storage account. Tal como fez com a criação da sua conta do Genomics, pode clicar em Notificações na barra de menus superior para monitorizar o processo de implementação.As you did with the creation of your Genomics Account, you can click Notifications in the top menu bar to monitor the deployment process.

Carregar dados de entrada para a conta de armazenamentoUpload input data to your storage account

O serviço Microsoft Genomics espera leituras finais emparelhadas como ficheiros de entrada.The Microsoft Genomics service expects paired end reads as input files. Pode optar por carregar os seus próprios dados ou explorar através dos dados de exemplo disponíveis publicamente fornecidos por si.You can choose to either upload your own data, or explore using publicly available sample data provided for you. Se quiser utilizar os dados de exemplo disponíveis publicamente, estão alojados aqui:If you would like to use the publicly available sample data, it is hosted here:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

Na sua conta de armazenamento, tem de criar um contentor de blobs para os dados de entrada e um segundo contentor de blobs para os dados de saída.Within your storage account, you need to make one blob container for your input data and a second blob container for your output data. Carregue os dados de entrada para o contentor de blobs de entrada.Upload the input data into your input blob container. Várias ferramentas podem ser usadas para fazer isso, incluindo Gerenciador de armazenamento do Microsoft Azure, BlobPorterou AzCopy.Various tools can be used to do this, including Microsoft Azure Storage Explorer, BlobPorter, or AzCopy.

Executar um fluxo de trabalho através do serviço Microsoft Genomics com o cliente PythonRun a workflow through the Microsoft Genomics service using the Python client

Para executar um fluxo de trabalho através do serviço Microsoft Genomics, edite o ficheiro config.txt para especificar o contentor de armazenamento de entrada e saída para os dados.To run a workflow through the Microsoft Genomics service, edit the config.txt file to specify the input and output storage container for your data. Abra o ficheiro config.txt que transferiu a partir da conta do Genomics.Open the config.txt file that you downloaded from your Genomics account. As secções que tem de especificar são a chave de subscrição e os seis itens na parte inferior, o nome da conta de armazenamento, o nome da chave e do contentor para a entrada e a saída.The sections you need to specify are your subscription key and the six items at the bottom, the storage account name, key and container name for both the input and output. Pode encontrar estas informações ao navegar no portal para Chaves de acesso para a sua conta de armazenamento ou diretamente a partir do Explorador de Armazenamento do Azure.You can find this information by navigating in the portal to Access keys for your storage account, or directly from the Azure Storage Explorer.

Configuração de genomaGenomics config

Se você quiser executar GATK4, defina o parâmetro process_name como gatk4.If you would like to run GATK4, set the process_name parameter to gatk4.

Por padrão, o serviço de genoma gera arquivos VCF.By default, the Genomics service outputs VCF files. Se você quiser uma saída de gVCF em vez de uma saída de VCF (equivalente a -emitRefConfidence em GATK 3. x e emit-ref-confidence no GATK 4. x), adicione o parâmetro emit_ref_confidence ao seu config.txt e defina-o como gvcf, conforme mostrado na figura acima.If you would like a gVCF output rather than a VCF output (equivalent to -emitRefConfidence in GATK 3.x and emit-ref-confidence in GATK 4.x), add the emit_ref_confidence parameter to your config.txt and set it to gvcf, as shown in the above figure. Para alterar novamente para a saída de VCF, remova-a do arquivo de config.txt ou defina o parâmetro emit_ref_confidence como none.To change back to VCF output, either remove it from the config.txt file or set the emit_ref_confidence parameter to none.

Submeter o fluxo de trabalho para o serviço Microsoft Genomics através do cliente PythonSubmit your workflow to the Microsoft Genomics service the Microsoft Genomics client

Utilize o cliente Python do Microsoft Genomics para submeter o seu fluxo de trabalho com o seguinte comando:Use the Microsoft Genomics Python client to submit your workflow with the following command:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Pode ver o estado dos fluxos de trabalho com o seguinte comando:You can view the status of your workflows using the following command:

msgen list -f c:\temp\config.txt 

Após a conclusão do fluxo de trabalho, pode ver os ficheiros de saída na conta de Armazenamento do Azure no contentor de saída que configurou.Once your workflow completes, you can view the output files in your Azure Storage Account in the output container that you configured.

Passos seguintesNext steps

Neste artigo, carregou dados de entrada de exemplo para o Armazenamento do Azure e submeteu um fluxo de trabalho para o serviço Microsoft Genomics através do cliente Python msgen.In this article, you uploaded sample input data into Azure Storage and submitted a workflow to the Microsoft Genomics service through the msgen Python client. Para obter mais informações sobre outros tipos de ficheiros de entrada que podem ser utilizados com o serviço Microsoft Genomics, veja as seguintes páginas: FASTQ emparelhado | BAM | Múltiplos ficheiros FASTQ ou BAM.To learn more about other input file types that can be used with the Microsoft Genomics service, see the following pages: paired FASTQ | BAM | Multiple FASTQ or BAM. Pode também explorar este tutorial com o nosso tutorial do bloco de notas do Azure.You can also explore this tutorial using our Azure notebook tutorial.