Pipeline de anotação snpEff pré-embalado

Nota

Databricks Runtime for Genomics é depreciado. A Databricks já não está a construir novos databricks Runtime para lançamentos de Gennomics e removerá o suporte para databricks Runtime for Genomics em 24 de setembro de 2022, quando databricks Runtime for Genomics 7.3 LTS support termina. Nessa altura, o tempo de execução da Databricks para a Genómica deixará de estar disponível para seleção quando criar um cluster. Para obter mais informações sobre a política e o agendamento da preterição do Databricks Runtime, veja Versões de runtime do Databricks suportadas e agendamento do suporte. As bibliotecas de bioinformática que faziam parte do tempo de funcionação foram lançadas como Docker Containers, que pode encontrar na página [ProjectGlow Dockerhub][Dockerhub].

Configuração

Executar o SnpEff (v4.3) como um trabalho da Azure Databricks. Muito provavelmente, um arquiteto de soluções Azure Databricks irá preparar o trabalho inicial para si. Os detalhes necessários são:

Testes de referências

O gasoduto foi testado em 85,2 milhões de sites variantes do projeto 1000 Genomas utilizando as seguintes configurações de cluster:

  • Motorista: Standard_DS13_v2
  • Trabalhadores: Standard_D32s_v3 * 7 (224 núcleos)
  • Tempo de funcionamento: 2,5 horas

Genomas de referência

Deve configurar o genoma de referência utilizando variáveis ambientais. Para utilizar o GRCh37, desaprote a variável ambiental:

refGenomeId=grch37

Para utilizar o GRCh38, desaprote o ambiente variável:

refGenomeId=grch38

Parâmetros

O oleoduto aceita uma série de parâmetros que controlam o seu comportamento. O mais importante e os parâmetros geralmente alterados são documentados aqui; o resto pode ser encontrado no caderno do gasoduto snpEff. Depois de importar o caderno e defini-lo como uma tarefa de trabalho, você pode definir estes parâmetros para todas as corridas ou por corrida.

Parâmetro Predefinição Description
inputVariants n/a Percurso das variantes de entrada (VCF ou Delta Lake).
saída n/a O caminho onde deve ser escrita a saída do gasoduto.
exportaçãoVCF false Se for verdade, o oleoduto escreve resultados em VCF, bem como em Delta Lake.
exportaçãoVCFAsSingleFile false Se for verdade, exporta o VCF como ficheiro único

Saída

As variantes anotadas são escritas para as tabelas Delta dentro do diretório de saída fornecido. Se configurar o oleoduto para exportar para o VCF, eles também aparecerão sob o diretório de saída.

output
|---annotations
    |---Delta files
|---annotations.vcf

Caderno de gasoduto de anotação SnpEff

Obter o bloco de notas