Озеро данных по геномике
Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.
Набор данных Genomics Data Lake хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионах "Западная часть США 2" и "Центрально-западная часть США".
Примечание
Использование наборов данных регулируется условиями, установленными владельцами наборов данных. Применимые условия использования см. на странице со сведениями о каждом наборе данных.
Наборы данных
Наборы данных | Описание |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Human Reference Genomes | Human Reference Genomes |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: набор средств для аннотирования вариантов генома и прогнозирования функциональных последствий |
gnomAD | gnomAD: база данных с агрегированными сведениями о геномах |
1000 геномов | 1000 геномов |
OpenCravat | OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit (Открытый набор средств для пользовательского ранжированного анализа вариантов) |
ENCODE | ENCODE: энциклопедия элементов ДНК |
Пакет ресурсов GATK | Пакет ресурсов GATK |
Открытые данные TCGA | Открытые данные TCGA |
Pan UK-Biobank | UK-Biobank сдвига |
Дальнейшие действия
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.