Início Rápido: Executar um fluxo de trabalho através do serviço Microsoft Genomics

Neste início rápido, vai carregar dados de entrada para uma conta de armazenamento de Blobs do Azure e executar um fluxo de trabalho através do serviço Microsoft Genomics com o cliente Python Genomics. O Microsoft Genomics é um serviço dimensionável e seguro para análise secundária que consegue processar rapidamente um genoma, a partir de leituras não processadas e ao produzir leituras alinhadas e chamadas variantes.

Pré-requisitos

Configurar: criar uma conta do Microsoft Genomics no portal do Azure

Para criar uma conta do Microsoft Genomics, navegue para Criar uma conta do Genomics no portal do Azure. Se ainda não tiver uma subscrição do Azure, crie uma antes de criar uma conta do Microsoft Genomics.

Microsoft Genomics on portal do Azure

Configure a conta do Genomics com as informações seguintes, conforme mostrado na imagem anterior.

Definição Valor sugerido Descrição do campo
Subscrição Nome da sua subscrição Trata-se da unidade de faturação dos serviços do Azure. Para obter detalhes sobre a sua subscrição, veja Subscrições
Grupo de recursos MyResourceGroup Os grupos de recursos permitem-lhe agrupar múltiplos recursos do Azure (conta de armazenamento, conta do Genomics, etc.) num único grupo de gestão simples. Para obter mais informações, veja Grupos de Recursos. Para obter os nomes de grupos de recursos válidos, veja Regras de Nomenclatura
Nome da conta MyGenomicsAccount Escolha um identificador de conta exclusivo. Para obter os nomes válidos, veja Regras de Nomenclatura
Localização E.U.A. Oeste 2 O serviço está disponível nas regiões E.U.A. Oeste 2, Europa Ocidental e Ásia Sudeste

Pode selecionar Notificações na barra de menus superior para monitorizar o processo de implementação.

Notificações

Para obter mais informações sobre o Microsoft Genomics, consulte O que é o Microsoft Genomics?

Configurar: instalar o cliente Microsoft Genomics Python

Tem de instalar o Python e o cliente msgen Python do Microsoft Genomics no seu ambiente local.

Instalar o Python

O cliente Python do Microsoft Genomics é compatível com o Python 2.7.12 ou uma versão posterior de 2.7.xx. 2.7.14 é a versão sugerida. Pode encontrar a transferência aqui.

Importante

O Python 3.x não é compatível com o Python 2.7.xx. msgen é uma aplicação Python 2.7. Ao executar msgen, certifique-se de que o seu ambiente python ativo está a utilizar uma versão 2.7.xx do Python. Poderá obter erros ao tentar utilizar msgen com uma versão 3.x do Python.

Instalar o cliente Python do Microsoft Genomics msgen

Utilize o Python pip para instalar o cliente msgenMicrosoft Genomics. As seguintes instruções pressupõem que o Python2.x já se encontra no caminho do sistema. Se tiver problemas com pip o facto de a instalação não ser reconhecida, terá de adicionar o Python e a subpasta scripts ao caminho do sistema.

pip install --upgrade --no-deps msgen
pip install msgen

Se não quiser instalar msgen como um binário ao nível do sistema e modificar pacotes Python em todo o sistema, utilize o –-user sinalizador com pip. Quando utiliza a instalação baseada em pacotes ou setup.py, todos os pacotes necessários são instalados.

Testar msgen o cliente Python

Para testar o cliente do Microsoft Genomics, transfira o ficheiro de configuração a partir da sua conta do Genomics. No portal do Azure, navegue para a sua conta do Genomics ao selecionar Todos os serviços no canto superior esquerdo e, em seguida, procure e selecione contas Genomics.

Localizar o Microsoft Genomics no portal do Azure

Selecione a conta do Genomics que acabou de criar, navegue para Chaves de Acesso e transfira o ficheiro de configuração.

Transferir o ficheiro de configuração do Ficheiro de configuração do Microsoft Genomics

Teste se o cliente Microsoft Genomics Python está a funcionar com o seguinte comando

msgen list -f "<full path where you saved the config file>"

Criar uma conta Armazenamento do Microsoft Azure

O serviço Microsoft Genomics espera que as entradas sejam armazenadas como blobs de blocos numa conta de armazenamento do Azure. Também escreve os ficheiros de saída como blobs de blocos num contentor especificado pelo utilizador numa conta de armazenamento do Azure. As entradas e saídas podem residir em contas de armazenamento diferentes. Se já tiver os dados numa conta de armazenamento do Azure, basta certificar-se de que está na mesma localização da conta do Genomics. Caso contrário, são incorridos custos de saída ao executar o serviço Microsoft Genomics. Se ainda não tiver uma conta de armazenamento do Azure, tem de criar uma e carregar os seus dados. Pode encontrar mais informações sobre contas de armazenamento do Azure aqui, incluindo o que é uma conta de armazenamento e que serviços fornece. Para criar uma conta de armazenamento do Azure, navegue para Criar conta de armazenamento no portal do Azure.

Página de criação da conta de armazenamento

Configure a sua conta de armazenamento com as seguintes informações, conforme mostrado na imagem anterior. Utilize a maioria das opções padrão para uma conta de armazenamento, especificando apenas que a conta é BlobStorage e não para fins gerais. O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido para transferências e carregamentos. O modelo de implementação predefinido, Resource Manager do Azure, é recomendado.

Definição Valor sugerido Descrição do campo
Subscrição A sua subscrição do Azure Para obter detalhes sobre a sua subscrição, veja Subscrições
Grupo de recursos MyResourceGroup Pode selecionar o mesmo grupo de recursos que a sua conta do Genomics. Para obter nomes de grupos de recursos válidos, veja Regras de nomenclatura
Nome da conta de armazenamento MyStorageAccount Escolha um identificador de conta exclusivo. Para nomes válidos, veja Regras de nomenclatura
Localização E.U.A. Oeste 2 Utilize a mesma localização que a localização da sua conta do Genomics, para reduzir os custos de saída e reduzir a latência.
Desempenho Standard A predefinição é Standard. Para obter mais detalhes sobre contas de armazenamento standard e premium, veja Introdução ao armazenamento do Microsoft Azure
Tipo de conta BlobStorage O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido do que para fins gerais para transferências e carregamentos.
Replicação Armazenamento localmente redundante O armazenamento localmente redundante replica os dados no datacenter na região em que foi criada a conta de armazenamento. Para obter mais informações, veja Replicação do Armazenamento do Azure
Camada de acesso Frequente Um acesso frequente indica que os objetos na conta de armazenamento serão acedidos com mais frequência.

Em seguida, selecione Rever + criar para criar a sua conta de armazenamento. Tal como fez com a criação da sua conta do Genomics, pode selecionar Notificações na barra de menus superior para monitorizar o processo de implementação.

Carregar dados de entrada para a conta de armazenamento

O serviço Microsoft Genomics espera leituras finais emparelhadas (ficheiros fastq ou bam) como ficheiros de entrada. Pode optar por carregar os seus próprios dados ou explorar através dos dados de exemplo disponíveis publicamente fornecidos por si.

Na sua conta de armazenamento, tem de criar um contentor de blobs para os dados de entrada e um segundo contentor de blobs para os dados de saída. Carregue os dados de entrada para o contentor de blobs de entrada. Podem ser utilizadas várias ferramentas para o fazer, incluindo Explorador de Armazenamento do Microsoft Azure, BlobPorter ou AzCopy.

Executar um fluxo de trabalho através do serviço Microsoft Genomics com o msgen cliente Python

Para executar um fluxo de trabalho através do serviço Microsoft Genomics, edite o ficheiro config.txt para especificar o contentor de armazenamento de entrada e saída para os seus dados. Abra o ficheiro config.txt que transferiu a partir da sua conta do Genomics. As secções que precisa de especificar são a sua chave de subscrição e os seis itens na parte inferior, o nome da conta de armazenamento, a chave e o nome do contentor para a entrada e saída. Pode encontrar estas informações ao navegar no portal do Azure para as chaves de Acesso da sua conta de armazenamento ou diretamente a partir do Explorador de Armazenamento do Azure.

Configuração do Genomics Configuração do

Se quiser executar o GATK4, defina o process_name parâmetro como gatk4.

Por predefinição, o serviço Genomics produz ficheiros VCF. Se quiser uma saída gVCF em vez de uma saída de VCF (equivalente a -emitRefConfidence no GATK 3.x e emit-ref-confidence no GATK 4.x), adicione o emit_ref_confidence parâmetro ao config.txt e defina-o gvcfcomo , conforme mostrado na figura anterior. Para voltar à saída do VCF, remova-a do ficheiro config.txt ou defina o emit_ref_confidence parâmetro como none.

bgzip é uma ferramenta que comprime o ficheiro vcf ou gvcf e tabix cria um índice para o ficheiro comprimido. Por predefinição, o serviço Genomics é bgzip executado seguido de tabix na saída ".g.vcf", mas não executa estas ferramentas por predefinição para a saída ".vcf". Quando executado, o serviço produz ficheiros ".gz" (saída bgzip) e ".tbi" (saída do tabix). O argumento é um booleano, que está definido como falso por predefinição para a saída ".vcf" e verdadeiro por predefinição para a saída ".g.vcf". Para utilizar na linha de comandos, especifique -bz ou --bgzip-output como true (execute bgzip e tabix) ou false. Para utilizar este argumento no ficheiro config.txt , adicione bgzip_output: true ou bgzip_output: false ao ficheiro.

Submeter o fluxo de trabalho para o serviço Microsoft Genomics com o msgen cliente Python

Utilize o cliente Python do Microsoft Genomics para submeter o seu fluxo de trabalho com o seguinte comando:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Pode ver o estado dos fluxos de trabalho com o seguinte comando:

msgen list -f c:\temp\config.txt 

Assim que o fluxo de trabalho estiver concluído, pode ver os ficheiros de saída na sua conta de armazenamento do Azure no contentor de saída que configurou.

Passos seguintes

Neste artigo, carregou dados de entrada de exemplo para o armazenamento do Azure e submeteu um fluxo de trabalho para o serviço Microsoft Genomics através do msgen cliente Python. Para saber mais sobre outros tipos de ficheiro de entrada que podem ser utilizados com o serviço Microsoft Genomics, consulte as seguintes páginas: FASTQ | EMPARELHADOBAM | Múltiplo FASTQ ou BAM.