Genome Aggregation Database (gnomAD)

Artículo
06/01/2023

Genome Aggregation Database (gnomAD) es un recurso desarrollado por una coalición internacional de investigadores con el objetivo de agregar y armonizar los datos de la secuenciación del exoma y del genoma procedentes de una gran variedad de proyectos de secuenciación a gran escala, y de poner los datos resumidos a disposición de la amplia comunidad científica.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos se hospeda en colaboración con el Broad Institute y el catálogo de datos completo de gnomAD se puede ver en https://gnomad.broadinstitute.org/downloads.

Volúmenes de datos y frecuencia de actualización

Este conjunto contiene unos 30 TB de datos y se actualiza con cada versión de gnomAD.

Ubicación de almacenamiento

La cuenta de almacenamiento que hospeda este conjunto de datos se encuentra en la región Este de EE. UU. de Azure. Se recomienda asignar recursos de proceso de la misma región por afinidad.

Acceso a datos

Cuenta de almacenamiento: "https://datasetgnomad.blob.core.windows.net/dataset/"

Los datos están disponibles públicamente sin restricciones y se recomienda la herramienta AzCopy para realizar operaciones masivas. Por ejemplo, para ver los archivos VCF de la versión 3.0 de gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Para descargar todos los archivos VCF de forma recursiva:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NUEVO: Formato parquet de archivos VCF de gnomAD v2.1.1 (genomas y exomas)

Para ver los archivos parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Para descargar todos los archivos de parquet de forma recursiva:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

El Explorador de Azure Storage también es una herramienta útil para examinar la lista de archivos de la versión de gnomAD.

Términos de uso

Los datos están disponibles sin restricciones. Para obtener más información y detalles de cita, consulte la página de información de gnomAD.

Contacto

Si tiene alguna pregunta o comentario sobre este conjunto de datos, póngase en contacto con el equipo de gnomAD.

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.