Pipeline RNASeqRNASeq pipeline

Notes

Les versions de bibliothèque suivantes sont empaquetées dans Databricks Runtime 7,0 pour la génomique.The following library versions are packaged in Databricks Runtime 7.0 for Genomics. Pour les bibliothèques incluses dans les versions inférieures de Databricks Runtime pour la génomique, consultez les notes de publication.For libraries included in lower versions of Databricks Runtime for Genomics, see the release notes.

Le pipeline Databricks RNASeq gère l’alignement et la quantification de lecture rapide à l’aide de Star v 2.6.1 a et d' Adam v 0.32.0.The Databricks RNASeq pipeline handles short read alignment and quantification using STAR v2.6.1a and ADAM v0.32.0.

Programme d’installationSetup

Le pipeline est exécuté en tant que tâche de Azure Databricks.The pipeline is run as an Azure Databricks job. Vous pouvez configurer une stratégie de cluster pour enregistrer la configuration :You can set up a cluster policy to save the configuration:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38_star"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • La tâche doit être le bloc-notes RNASeq fourni en bas de cette page.The task should be the RNASeq notebook provided at the bottom of this page.
  • Pour de meilleures performances, utilisez les machines virtuelles optimisées pour le calcul avec au moins 60 Go de mémoire.For best performance, use the compute optimized VMs with at least 60GB of memory. Nous vous recommandons d’utiliser des machines virtuelles Standard_F32s_v2 .We recommend Standard_F32s_v2 VMs.

Référencer des génomesReference genomes

Vous devez configurer le génome de référence à l’aide de variables d’environnement.You must configure the reference genome using environment variables. Pour utiliser GRCh37, définissez la variable d’environnement :To use GRCh37, set the environment variable:

refGenomeId=grch37_star

Pour utiliser GRCh38 à la place, définissez la variable d’environnement :To use GRCh38 instead, set the environment variable:

refGenomeId=grch38_star

ParamètresParameters

Le pipeline accepte un certain nombre de paramètres qui contrôlent son comportement.The pipeline accepts a number of parameters that control its behavior. Les paramètres les plus importants et les plus couramment modifiés sont décrits ici. le reste est disponible dans le bloc-notes RNASeq.The most important and commonly changed parameters are documented here; the rest can be found in the RNASeq notebook. Après avoir importé le bloc-notes et l’avoir défini en tant que tâche de travail, vous pouvez définir ces paramètres pour toutes les exécutions ou par exécution.After importing the notebook and setting it as a job task, you can set these parameters for all runs or per-run.

ParamètreParameter DefaultDefault DescriptionDescription
manifestmanifest n/an/a Manifeste décrivant l’entrée.The manifest describing the input.
sortieoutput n/an/a Chemin d’accès où la sortie du pipeline doit être écrite.The path where pipeline output should be written.
replayModereplayMode skipskip Valeurs possibles :One of:

* skip: les étapes sont ignorées si la sortie existe déjà.* skip: stages are skipped if output already exists.
* overwrite: la sortie existante est supprimée.* overwrite: existing output is deleted.
perSampleTimeoutperSampleTimeout 12 h12h Délai d’expiration appliqué par échantillon.A timeout applied per sample. Une fois ce délai atteint, le pipeline continue à l’exemple suivant.After reaching this timeout, the pipeline continues on to the next sample. La valeur de ce paramètre doit inclure une unité de délai d’attente : 'pour les secondes, 'm’pour minutes ou’h’pour les heures.The value of this parameter must include a timeout unit: ‘s’ for seconds, ‘m’ for minutes, or ‘h’ for hours. Par exemple, « 60 min » génère un délai d’expiration de 60 minutes.For example, ‘60m’ results in a timeout of 60 minutes.

Procédure pas à pasWalkthrough

Le pipeline se compose de deux étapes :The pipeline consists of two steps:

  1. Alignement : mappez chaque lecture brève au génome de référence à l’aide de l’alignement en étoile.Alignment: Map each short read to the reference genome using the STAR aligner.
  2. Quantification : compter le nombre de lectures correspondant à chaque transcription de référence.Quantification: Count how many reads correspond to each reference transcript.

Informations supplémentaires sur l’utilisation et la résolution des problèmesAdditional usage info and troubleshooting

Les aspects opérationnels du pipeline RNASeq sont très similaires au pipeline DNASeq.The operational aspects of the RNASeq pipeline are very similar to the DNASeq pipeline. Pour plus d’informations sur le format de manifeste, la structure de sortie, l’utilisation de programmation et les problèmes courants, consultez pipeline DNASeq.For more information about manifest format, output structure, programmatic usage, and common issues, see DNASeq pipeline.

Bloc-notes RNASeq pipelineRNASeq pipeline notebook

Obtenir le notebookGet notebook