Pipeline d’annotation SnpEff pré -packagé Pre-packaged SnpEff annotation pipeline

Programme d’installationSetup

Exécutez SnpEff (v 4.3) en tant que tâche de Azure Databricks.Run SnpEff (v4.3) as an Azure Databricks job. Il est très probable qu’un Azure Databricks architecte solutions configure la tâche initiale pour vous.Most likely, an Azure Databricks solutions architect will set up the initial job for you. Les informations nécessaires sont les suivantes :The necessary details are:

BenchmarksBenchmarks

Le pipeline a été testé sur les sites de variantes 85,2 millions à partir du projet de génomes 1000 à l’aide des configurations de cluster suivantes :The pipeline has been tested on 85.2 million variant sites from the 1000 Genomes project using the following cluster configurations:

  • Pilote : Standard_DS13_v2Driver: Standard_DS13_v2
  • Workers : Standard_D32s_v3 * 7 (cœurs 224)Workers: Standard_D32s_v3 * 7 (224 cores)
  • Runtime : 2,5 heuresRuntime: 2.5 hours

Référencer des génomesReference genomes

Vous devez configurer le génome de référence à l’aide de variables d’environnement.You must configure the reference genome using environment variables. Pour utiliser GRCh37, définissez la variable d’environnement :To use GRCh37, set the environment variable:

refGenomeId=grch37

Pour utiliser GRCh38 à la place, définissez la variable d’environnement :To use GRCh38 instead, set the environment variable:

refGenomeId=grch38

ParamètresParameters

Le pipeline accepte un certain nombre de paramètres qui contrôlent son comportement.The pipeline accepts a number of parameters that control its behavior. Les paramètres les plus importants et les plus couramment modifiés sont décrits ici. le reste est disponible dans le bloc-notes du pipeline d’annotation SnpEff.The most important and commonly changed parameters are documented here; the rest can be found in the SnpEff Annotation pipeline notebook. Après avoir importé le bloc-notes et l’avoir défini en tant que tâche de travail, vous pouvez définir ces paramètres pour toutes les exécutions ou par exécution.After importing the notebook and setting it as a job task, you can set these parameters for all runs or per-run.

ParamètreParameter DefaultDefault DescriptionDescription
inputVariantsinputVariants n/an/a Chemin des variantes d’entrée (VCF ou Delta Lake).Path of input variants (VCF or Delta Lake).
sortieoutput n/an/a Chemin d’accès où la sortie du pipeline doit être écrite.The path where pipeline output should be written.
exportVCFexportVCF falsefalse Si la valeur est true, le pipeline écrit les résultats dans VCF et Delta Lake.If true, the pipeline writes results in VCF as well as Delta Lake.
exportVCFAsSingleFileexportVCFAsSingleFile falsefalse Si la valeur est true, exporte VCF en tant que fichier uniqueIf true, exports VCF as single file

SortieOutput

Les variantes annotées sont écrites dans les tables delta dans le répertoire de sortie fourni.The annotated variants are written out to Delta tables inside the provided output directory. Si vous avez configuré le pipeline pour l’exportation vers VCF, il apparaît également sous le répertoire de sortie.If you configured the pipeline to export to VCF, they’ll appear under the output directory as well.

output
|---annotations
    |---Delta files
|---annotations.vcf

Bloc-notes du pipeline d' annotation SnpEff SnpEff annotation pipeline notebook

Obtenir le notebookGet notebook