Data lake Genomics

O Data Lake Genomics conta com vários conjuntos de dados públicos que podem ser acessados gratuitamente e integrados aos seus aplicativos e fluxos de trabalho de análise genômica. Os conjuntos de dados incluem: sequências de genomas, informações sobre variantes e metadados de indivíduos/amostras nos formatos de arquivo BAM, FASTA, VCF e CSV.

O Data Lake do Genomics está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 e no Centro-Oeste dos EUA por questão de afinidade.

Observação

O uso de conjuntos de dados está sujeito aos termos e condições definidos pelos proprietários do conjunto de dados. Confira a página de detalhes de cada conjunto de dados para ver os termos e condições aplicáveis.

Conjunto de dados

Conjunto de dados Descrição
Illumina Platinum Genomes Illumina Platinum Genomes
Genomas de referência humanos Genomas de referência humanos
Anotações do ClinVar Anotações do ClinVar
SnpEff SnpEff: Caixa de ferramentas de anotações de variante de genoma e previsão de efeito funcional
gnomAD gnomAD: Banco de Dados de Agregação de Genomas
1000 Genomas 1000 Genomas
OpenCravat OpenCRAVAT: Kit de Ferramentas da Análise Classificada Personalizada e Aberta de Variantes
ENCODE ENCODE: Enciclopédia de Elementos do DNA
Pacote de recursos GATK Pacote de recursos GATK
Dados abertos do TCGA Dados abertos do TCGA
Pan UK-Biobank Pan UK-Biobank

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.