Genomics Data Lake

Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete zdarma přistupovat a integrovat je do pracovních postupů a aplikací genomické analýzy. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Datové jezero Genomics je hostované v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad a USA – západ 2.

Poznámka

Použití datových sad podléhá podmínkám a ujednáním nastaveným vlastníky datových sad. Příslušné podmínky a ujednání najdete na stránce s podrobnostmi o každé datové sadě.

Datové sady

Datové sady Description
Illumina Platinum Genomes Illumina Platinum Genomes
Lidské referenční genomy Lidské referenční genomy
Poznámky ClinVar Poznámky ClinVar
SnpEff SnpEff: Sada nástrojů pro predikci funkčních efektů a anotaci genomických variant
gnomAD gnomAD: Databáze agregace genomu
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
KÓDOVAT ENCODE: Encyclopedia of DNA Elements
Sada prostředků GATK Sada prostředků GATK
Otevřená data TCGA Otevřená data TCGA
Pan UK-Biobank Posouvání UK-Biobank

Další kroky

Zobrazte zbytek datových sad v katalogu Otevřít datové sady.