Genomics Data Lake

Article
06/30/2023

Le lac de données Genomics Data Lake fournit divers jeux de données publics qui sont accessibles gratuitement et peuvent s’intégrer à vos applications et workflows d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon sous les formats de fichier BAM, FASTA, VCF et CSV.

Le lac de données Genomics est hébergé dans les régions Azure USA Ouest 2 et USA Centre-Ouest. L’allocation de ressources de calcul dans la région USA Ouest 2 et USA Centre-Ouest est recommandée à des fins d’affinité.

Notes

L’utilisation des jeux de données est soumise aux modalités et conditions fixées par les propriétaires des jeux de données. Voir la page d’informations du jeu de données pour les conditions générales applicables.

Groupes de données

Groupes de données	Description
Illumina Platinum Genomes	Illumina Platinum Genomes
Génomes humains de référence	Génomes humains de référence
Annotations ClinVar	Annotations ClinVar
SnpEff	SnpEff : Outils de prédiction d’effet fonctionnel et d’annotation de variantes génomiques
gnomAD	gnomAD : Base de données d’agrégation du génome
1 000 génomes	1 000 génomes
OpenCravat	OpenCravat : Kit de ressources open source pour l’analyse personnalisée des variantes
ENCODE	ENCODE : Encyclopedia of DNA Elements
Groupe de ressources GATK	Groupe de ressources GATK
Données ouvertes TCGA	Données ouvertes TCGA
Pan UK-Biobank	Pan UK-Biobank

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.

Partage via

Genomics Data Lake

Groupes de données

Étapes suivantes

Ressources supplémentaires