Озеро данных по геномике

Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.

Набор данных Genomics Data Lake хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионах "Западная часть США 2" и "Центрально-западная часть США".

Примечание

Использование наборов данных регулируется условиями, установленными владельцами наборов данных. Применимые условия использования см. на странице со сведениями о каждом наборе данных.

Наборы данных

Наборы данных Описание
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: набор средств для аннотирования вариантов генома и прогнозирования функциональных последствий
gnomAD gnomAD: база данных с агрегированными сведениями о геномах
1000 геномов 1000 геномов
OpenCravat OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit (Открытый набор средств для пользовательского ранжированного анализа вариантов)
ENCODE ENCODE: энциклопедия элементов ДНК
Пакет ресурсов GATK Пакет ресурсов GATK
Открытые данные TCGA Открытые данные TCGA
Pan UK-Biobank UK-Biobank сдвига

Дальнейшие действия

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.