Lago de datos de Genomics

El lago de datos de Genomics proporciona una gran variedad de conjuntos de datos públicos de acceso gratuito que puede integrar en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.

El lago de datos Genomics Data Lake se hospeda en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.

Nota:

El uso de los conjuntos de datos está sujeto a los términos y condiciones establecidos por sus propietarios. Vea la página de detalles de cada conjunto de datos para consultar los términos y condiciones aplicables.

Conjuntos de datos

Conjuntos de datos Descripción
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: cuadro de herramientas para predicciones de efectos funcionales y anotaciones de variantes genómicas
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
ENCODE ENCODE: Encyclopedia of DNA Elements
Lote de recursos de GATK Lote de recursos de GATK
Datos abiertos de TCGA Datos abiertos de TCGA
Pan UK-Biobank Pan UK-Biobank

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.