ENCODE: Encyclopedia of DNA Elements

El consorcio Encyclopedia of DNA Elements (ENCODE) es un proyecto en curso de colaboración internacional de grupos de investigación financiado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI). El objetivo de ENCODE es crear una lista completa de los elementos funcionales del genoma humano, incluidos los que actúan a nivel de proteínas y del ARN, así como los elementos reguladores que controlan las células y las circunstancias en las que un gen está activo.

Los investigadores de ENCODE utilizan una gran variedad de análisis y métodos para identificar los elementos funcionales. La detección y anotación de los elementos de los genes se consigue, principalmente, mediante la secuenciación de una diversa gama de orígenes de ARN, la genómica comparativa, métodos bioinformáticos integradores y la labor organizativa humana. Los elementos reguladores se investigan normalmente mediante análisis de hipersensibilidad del ADN, la metilación del ADN y la inmunoprecipitación (IP) de las proteínas que interactúan con el ADN y el ARN, es decir, histonas modificadas, factores de transcripción, reguladores de la cromatina y proteínas de unión al ARN, todo ello seguido de la secuenciación.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos es un reflejo del almacén de datos de https://www.encodeproject.org/.

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos incluye, aproximadamente, 756 TB de datos y se actualiza mensualmente durante la primera semana de cada mes.

Ubicación de almacenamiento

Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de Oeste de EE. UU. 2 o Centro-oeste de EE. UU.

Acceso a datos

Oeste de EE. UU. 2: "https://datasetencode.blob.core.windows.net/dataset"

Centro-oeste de EE. UU.: "https://datasetencode-secondary.blob.core.windows.net/dataset"

Token de SAS: ?sv=2019-10-10&si=prod&sr=c&sig=9qSQZo4ggrCNpybBExU8SypuUZV33igI11xw0P7rB3c%3D

Términos de uso

Los usuarios de datos externos pueden descargar, analizar y publicar libremente los resultados basados en cualquier dato de ENCODE sin restricciones, independientemente del tipo o tamaño, y no se incluye ningún período de gracia para los productores de datos de ENCODE, ya sea como miembros individuales o como parte del consorcio. Se recomienda a los investigadores que usen datos de ENCODE no publicados que se pongan en contacto con los productores de los datos para estudiar posibles publicaciones. El consorcio seguirá publicando los resultados de sus propios análisis en publicaciones independientes.

ENCODE solicita que los investigadores que utilicen conjuntos de datos de este proyecto (publicados o no) en presentaciones y publicaciones citen el consorcio ENCODE de todas las maneras que se indican en https://www.encodeproject.org/help/citing-encode/.

Contacto

Si tiene alguna pregunta, preocupación o comentario, envíe un correo electrónico a nuestro departamento de soporte técnico en encode-help@lists.stanford.edu.

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.