Genomics Data Lake

Datové jezero Genomics poskytuje různé veřejné datové sady, ke které máte zdarma přístup a které můžete integrovat do svých aplikací a pracovních postupů analýzy genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Datové jezero Genomics je hostované v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad a USA – západ 2.

Poznámka

Použití datových sad podléhá podmínkám a podmínkám nastaveným vlastníky datové sady. Příslušné podmínky a podmínky najdete na stránce s podrobnostmi o každé datové sadě.

Datové sady

Datové sady Description
Illumina Platinum Genomes Illumina Platinum Genomes
Lidské referenční genomy Lidské referenční genomy
Poznámky ClinVar Poznámky ClinVar
SnpEff SnpEff: Sada nástrojů pro predikci funkčních efektů a anotaci genomických variant
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
KÓDOVAT ENCODE: Encyclopedia of DNA Elements
Sada prostředků GATK Sada prostředků GATK

Další kroky

Prohlédněte si zbývající datové sady v Open Datasets katalogu.