Partage via


Genomics Data Lake

Le lac de données Genomics Data Lake fournit divers jeux de données publics qui sont accessibles gratuitement et peuvent s’intégrer à vos applications et workflows d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon sous les formats de fichier BAM, FASTA, VCF et CSV.

Le lac de données Genomics est hébergé dans les régions Azure USA Ouest 2 et USA Centre-Ouest. L’allocation de ressources de calcul dans la région USA Ouest 2 et USA Centre-Ouest est recommandée à des fins d’affinité.

Notes

L’utilisation des jeux de données est soumise aux modalités et conditions fixées par les propriétaires des jeux de données. Voir la page d’informations du jeu de données pour les conditions générales applicables.

Groupes de données

Groupes de données Description
Illumina Platinum Genomes Illumina Platinum Genomes
Génomes humains de référence Génomes humains de référence
Annotations ClinVar Annotations ClinVar
SnpEff SnpEff : Outils de prédiction d’effet fonctionnel et d’annotation de variantes génomiques
gnomAD gnomAD : Base de données d’agrégation du génome
1 000 génomes 1 000 génomes
OpenCravat OpenCravat : Kit de ressources open source pour l’analyse personnalisée des variantes
ENCODE ENCODE : Encyclopedia of DNA Elements
Groupe de ressources GATK Groupe de ressources GATK
Données ouvertes TCGA Données ouvertes TCGA
Pan UK-Biobank Pan UK-Biobank

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.