Озеро данных по геномике

Статья
06/30/2023

Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.

Набор данных Genomics Data Lake хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионах "Западная часть США 2" и "Центрально-западная часть США".

Примечание

Использование наборов данных регулируется условиями, установленными владельцами наборов данных. Применимые условия использования см. на странице со сведениями о каждом наборе данных.

Наборы данных

Наборы данных	Описание
Illumina Platinum Genomes	Illumina Platinum Genomes
Human Reference Genomes	Human Reference Genomes
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: набор средств для аннотирования вариантов генома и прогнозирования функциональных последствий
gnomAD	gnomAD: база данных с агрегированными сведениями о геномах
1000 геномов	1000 геномов
OpenCravat	OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit (Открытый набор средств для пользовательского ранжированного анализа вариантов)
ENCODE	ENCODE: энциклопедия элементов ДНК
Пакет ресурсов GATK	Пакет ресурсов GATK
Открытые данные TCGA	Открытые данные TCGA
Pan UK-Biobank	UK-Biobank сдвига

Дальнейшие действия

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.

Озеро данных по геномике

Наборы данных

Дальнейшие действия

Дополнительные ресурсы