1000 Genomes

Artículo
06/01/2023

El proyecto 1000 Genomes se llevó a cabo entre 2008 y 2015, y supuso la creación del mayor catálogo público de datos de variantes y genotipos humanos. El conjunto de datos definitivo contiene datos de 2504 personas de 26 poblaciones y 84 millones de variantes identificadas. Si desea obtener más información, consulte el sitio web del proyecto 1000 Genomes y las siguientes publicaciones:

Análisis piloto: A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (28 de octubre de 2010)

Análisis de fase 1: An integrated map of genetic variation from 1,092 human genomes Nature 491, 56-65 (1 de noviembre de 2012)

Análisis de fase 3: A global reference for human genetic variation Nature 526, 68-74 (1 de octubre de 2015) y An integrated map of structural variation in 2,504 human genomes, Nature 526, 75-81 (1 de octubre de 2015)

Para obtener información sobre los formatos de los datos, consulte http://www.internationalgenome.org/formats.

[NUEVO] El conjunto de datos también está disponible en formato Parquet.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos es un reflejo de ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos contiene unos 815 TB de datos y se actualiza a diario.

Ubicación de almacenamiento

Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.

Acceso a datos

Oeste de EE. UU. 2: "https://dataset1000genomes.blob.core.windows.net/dataset"

Centro-oeste de EE. UU.: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

Token de SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Acceso a datos: conjunto de datos de 1000 genomas mantenidos en formato Parquet

Este de EE. UU.: https://curated1000genomes.blob.core.windows.net/dataset

Token de SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Términos de uso

Después de las publicaciones definitivas, los datos del proyecto 1000 Genomes están disponibles públicamente sin restricciones para que cualquier persona pueda usarlos conforme a los términos que proporciona el origen del conjunto de datos (http://www.internationalgenome.org/data). El uso de los datos debe citarse como se explica en las preguntas más frecuentes del proyecto 1000 Genomes.

Contacto

https://www.internationalgenome.org/contact

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.