Data lake Genomics

Artigo
06/30/2023

O Data Lake Genomics conta com vários conjuntos de dados públicos que podem ser acessados gratuitamente e integrados aos seus aplicativos e fluxos de trabalho de análise genômica. Os conjuntos de dados incluem: sequências de genomas, informações sobre variantes e metadados de indivíduos/amostras nos formatos de arquivo BAM, FASTA, VCF e CSV.

O Data Lake do Genomics está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 e no Centro-Oeste dos EUA por questão de afinidade.

Observação

O uso de conjuntos de dados está sujeito aos termos e condições definidos pelos proprietários do conjunto de dados. Confira a página de detalhes de cada conjunto de dados para ver os termos e condições aplicáveis.

Conjunto de dados

Conjunto de dados	Descrição
Illumina Platinum Genomes	Illumina Platinum Genomes
Genomas de referência humanos	Genomas de referência humanos
Anotações do ClinVar	Anotações do ClinVar
SnpEff	SnpEff: Caixa de ferramentas de anotações de variante de genoma e previsão de efeito funcional
gnomAD	gnomAD: Banco de Dados de Agregação de Genomas
1000 Genomas	1000 Genomas
OpenCravat	OpenCRAVAT: Kit de Ferramentas da Análise Classificada Personalizada e Aberta de Variantes
ENCODE	ENCODE: Enciclopédia de Elementos do DNA
Pacote de recursos GATK	Pacote de recursos GATK
Dados abertos do TCGA	Dados abertos do TCGA
Pan UK-Biobank	Pan UK-Biobank

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.

Data lake Genomics

Conjunto de dados

Próximas etapas

Recursos adicionais