Início Rápido: Executar um fluxo de trabalho através do serviço Microsoft Genomics
Neste início rápido, vai carregar dados de entrada para uma conta de armazenamento de Blobs do Azure e executar um fluxo de trabalho através do serviço Microsoft Genomics com o cliente Python Genomics. O Microsoft Genomics é um serviço dimensionável e seguro para análise secundária que consegue processar rapidamente um genoma, a partir de leituras não processadas e ao produzir leituras alinhadas e chamadas variantes.
Pré-requisitos
- Uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
- Python 2.7.12+, com
pip
instalado epython
no caminho do sistema. O cliente Microsoft Genomics não é compatível com o Python 3.
Configurar: criar uma conta do Microsoft Genomics no portal do Azure
Para criar uma conta do Microsoft Genomics, navegue para Criar uma conta do Genomics no portal do Azure. Se ainda não tiver uma subscrição do Azure, crie uma antes de criar uma conta do Microsoft Genomics.
Configure a conta do Genomics com as informações seguintes, conforme mostrado na imagem anterior.
Definição | Valor sugerido | Descrição do campo |
---|---|---|
Subscrição | Nome da sua subscrição | Trata-se da unidade de faturação dos serviços do Azure. Para obter detalhes sobre a sua subscrição, veja Subscrições |
Grupo de recursos | MyResourceGroup | Os grupos de recursos permitem-lhe agrupar múltiplos recursos do Azure (conta de armazenamento, conta do Genomics, etc.) num único grupo de gestão simples. Para obter mais informações, veja Grupos de Recursos. Para obter os nomes de grupos de recursos válidos, veja Regras de Nomenclatura |
Nome da conta | MyGenomicsAccount | Escolha um identificador de conta exclusivo. Para obter os nomes válidos, veja Regras de Nomenclatura |
Localização | E.U.A. Oeste 2 | O serviço está disponível nas regiões E.U.A. Oeste 2, Europa Ocidental e Ásia Sudeste |
Pode selecionar Notificações na barra de menus superior para monitorizar o processo de implementação.
Para obter mais informações sobre o Microsoft Genomics, consulte O que é o Microsoft Genomics?
Configurar: instalar o cliente Microsoft Genomics Python
Tem de instalar o Python e o cliente msgen
Python do Microsoft Genomics no seu ambiente local.
Instalar o Python
O cliente Python do Microsoft Genomics é compatível com o Python 2.7.12 ou uma versão posterior de 2.7.xx. 2.7.14 é a versão sugerida. Pode encontrar a transferência aqui.
Importante
O Python 3.x não é compatível com o Python 2.7.xx. msgen
é uma aplicação Python 2.7. Ao executar msgen
, certifique-se de que o seu ambiente python ativo está a utilizar uma versão 2.7.xx do Python. Poderá obter erros ao tentar utilizar msgen
com uma versão 3.x do Python.
Instalar o cliente Python do Microsoft Genomics msgen
Utilize o Python pip
para instalar o cliente msgen
Microsoft Genomics. As seguintes instruções pressupõem que o Python2.x já se encontra no caminho do sistema. Se tiver problemas com pip
o facto de a instalação não ser reconhecida, terá de adicionar o Python e a subpasta scripts ao caminho do sistema.
pip install --upgrade --no-deps msgen
pip install msgen
Se não quiser instalar msgen
como um binário ao nível do sistema e modificar pacotes Python em todo o sistema, utilize o –-user
sinalizador com pip
.
Quando utiliza a instalação baseada em pacotes ou setup.py, todos os pacotes necessários são instalados.
Testar msgen
o cliente Python
Para testar o cliente do Microsoft Genomics, transfira o ficheiro de configuração a partir da sua conta do Genomics. No portal do Azure, navegue para a sua conta do Genomics ao selecionar Todos os serviços no canto superior esquerdo e, em seguida, procure e selecione contas Genomics.
Selecione a conta do Genomics que acabou de criar, navegue para Chaves de Acesso e transfira o ficheiro de configuração.
Teste se o cliente Microsoft Genomics Python está a funcionar com o seguinte comando
msgen list -f "<full path where you saved the config file>"
Criar uma conta Armazenamento do Microsoft Azure
O serviço Microsoft Genomics espera que as entradas sejam armazenadas como blobs de blocos numa conta de armazenamento do Azure. Também escreve os ficheiros de saída como blobs de blocos num contentor especificado pelo utilizador numa conta de armazenamento do Azure. As entradas e saídas podem residir em contas de armazenamento diferentes. Se já tiver os dados numa conta de armazenamento do Azure, basta certificar-se de que está na mesma localização da conta do Genomics. Caso contrário, são incorridos custos de saída ao executar o serviço Microsoft Genomics. Se ainda não tiver uma conta de armazenamento do Azure, tem de criar uma e carregar os seus dados. Pode encontrar mais informações sobre contas de armazenamento do Azure aqui, incluindo o que é uma conta de armazenamento e que serviços fornece. Para criar uma conta de armazenamento do Azure, navegue para Criar conta de armazenamento no portal do Azure.
Configure a sua conta de armazenamento com as seguintes informações, conforme mostrado na imagem anterior. Utilize a maioria das opções padrão para uma conta de armazenamento, especificando apenas que a conta é BlobStorage e não para fins gerais. O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido para transferências e carregamentos. O modelo de implementação predefinido, Resource Manager do Azure, é recomendado.
Definição | Valor sugerido | Descrição do campo |
---|---|---|
Subscrição | A sua subscrição do Azure | Para obter detalhes sobre a sua subscrição, veja Subscrições |
Grupo de recursos | MyResourceGroup | Pode selecionar o mesmo grupo de recursos que a sua conta do Genomics. Para obter nomes de grupos de recursos válidos, veja Regras de nomenclatura |
Nome da conta de armazenamento | MyStorageAccount | Escolha um identificador de conta exclusivo. Para nomes válidos, veja Regras de nomenclatura |
Localização | E.U.A. Oeste 2 | Utilize a mesma localização que a localização da sua conta do Genomics, para reduzir os custos de saída e reduzir a latência. |
Desempenho | Standard | A predefinição é Standard. Para obter mais detalhes sobre contas de armazenamento standard e premium, veja Introdução ao armazenamento do Microsoft Azure |
Tipo de conta | BlobStorage | O armazenamento de blobs pode ser entre duas e cinco vezes mais rápido do que para fins gerais para transferências e carregamentos. |
Replicação | Armazenamento localmente redundante | O armazenamento localmente redundante replica os dados no datacenter na região em que foi criada a conta de armazenamento. Para obter mais informações, veja Replicação do Armazenamento do Azure |
Camada de acesso | Frequente | Um acesso frequente indica que os objetos na conta de armazenamento serão acedidos com mais frequência. |
Em seguida, selecione Rever + criar para criar a sua conta de armazenamento. Tal como fez com a criação da sua conta do Genomics, pode selecionar Notificações na barra de menus superior para monitorizar o processo de implementação.
Carregar dados de entrada para a conta de armazenamento
O serviço Microsoft Genomics espera leituras finais emparelhadas (ficheiros fastq ou bam) como ficheiros de entrada. Pode optar por carregar os seus próprios dados ou explorar através dos dados de exemplo disponíveis publicamente fornecidos por si.
Na sua conta de armazenamento, tem de criar um contentor de blobs para os dados de entrada e um segundo contentor de blobs para os dados de saída. Carregue os dados de entrada para o contentor de blobs de entrada. Podem ser utilizadas várias ferramentas para o fazer, incluindo Explorador de Armazenamento do Microsoft Azure, BlobPorter ou AzCopy.
Executar um fluxo de trabalho através do serviço Microsoft Genomics com o msgen
cliente Python
Para executar um fluxo de trabalho através do serviço Microsoft Genomics, edite o ficheiro config.txt para especificar o contentor de armazenamento de entrada e saída para os seus dados. Abra o ficheiro config.txt que transferiu a partir da sua conta do Genomics. As secções que precisa de especificar são a sua chave de subscrição e os seis itens na parte inferior, o nome da conta de armazenamento, a chave e o nome do contentor para a entrada e saída. Pode encontrar estas informações ao navegar no portal do Azure para as chaves de Acesso da sua conta de armazenamento ou diretamente a partir do Explorador de Armazenamento do Azure.
do
Se quiser executar o GATK4, defina o process_name
parâmetro como gatk4
.
Por predefinição, o serviço Genomics produz ficheiros VCF. Se quiser uma saída gVCF em vez de uma saída de VCF (equivalente a -emitRefConfidence
no GATK 3.x e emit-ref-confidence
no GATK 4.x), adicione o emit_ref_confidence
parâmetro ao config.txt e defina-o gvcf
como , conforme mostrado na figura anterior. Para voltar à saída do VCF, remova-a do ficheiro config.txt ou defina o emit_ref_confidence
parâmetro como none
.
bgzip
é uma ferramenta que comprime o ficheiro vcf ou gvcf e tabix
cria um índice para o ficheiro comprimido. Por predefinição, o serviço Genomics é bgzip
executado seguido de tabix
na saída ".g.vcf", mas não executa estas ferramentas por predefinição para a saída ".vcf". Quando executado, o serviço produz ficheiros ".gz" (saída bgzip) e ".tbi" (saída do tabix). O argumento é um booleano, que está definido como falso por predefinição para a saída ".vcf" e verdadeiro por predefinição para a saída ".g.vcf". Para utilizar na linha de comandos, especifique -bz
ou --bgzip-output
como true
(execute bgzip e tabix) ou false
. Para utilizar este argumento no ficheiro config.txt , adicione bgzip_output: true
ou bgzip_output: false
ao ficheiro.
Submeter o fluxo de trabalho para o serviço Microsoft Genomics com o msgen
cliente Python
Utilize o cliente Python do Microsoft Genomics para submeter o seu fluxo de trabalho com o seguinte comando:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Pode ver o estado dos fluxos de trabalho com o seguinte comando:
msgen list -f c:\temp\config.txt
Assim que o fluxo de trabalho estiver concluído, pode ver os ficheiros de saída na sua conta de armazenamento do Azure no contentor de saída que configurou.
Passos seguintes
Neste artigo, carregou dados de entrada de exemplo para o armazenamento do Azure e submeteu um fluxo de trabalho para o serviço Microsoft Genomics através do msgen
cliente Python. Para saber mais sobre outros tipos de ficheiro de entrada que podem ser utilizados com o serviço Microsoft Genomics, consulte as seguintes páginas: FASTQ | EMPARELHADOBAM | Múltiplo FASTQ ou BAM.