ENCODE: Enciclopédia de Elementos do DNA

O Consórcio Enciclopédia de Elementos do DNA (ENCODE) é uma colaboração internacional em andamento de grupos de pesquisa financiada pelo NHGRI (National Human Genoma Research Institute). A meta do ENCODE é criar uma lista abrangente de partes de elementos funcionais no genoma humano, incluindo elementos que atuam nos níveis de proteína e de RNA e elementos regulatórios que controlam células e circunstâncias nas quais um gene está ativo.

Os investigadores do ENCODE empregam uma variedade de ensaios e de métodos para identificar elementos funcionais. A descoberta e a anotação de elementos do gene são realizadas principalmente por meio do sequenciamento de uma variedade de fontes de RNA, de genômica comparativa, de métodos de bioinformática integrativa e de curadoria humana. Os elementos regulatórios normalmente são investigados por meio de ensaios de hipersensibilidade de DNA, de ensaios de metilação de DNA e IP (imunoprecipitação) de proteínas que interagem com DNA e RNA, ou seja, histonas modificadas, fatores de transcrição, reguladores de cromatina e proteínas de ligação a RNA, seguidos por sequenciamento.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Esse conjunto de dados é um espelho do armazenamento de dados em https://www.encodeproject.org/

Volumes de dados e frequência de atualização

Esse conjunto de dados inclui aproximadamente 756 TB de dados e é atualizado diariamente.

Local de armazenamento

Este conjunto de dados está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por questão de afinidade.

Acesso aos Dados

Oeste dos EUA 2: “https://datasetencode.blob.core.windows.net/dataset”

Centro-Oeste dos EUA: “https://datasetencode-secondary.blob.core.windows.net/dataset”

Token SAS: ?sv=2019-10-10&si=prod&sr=c&sig=9qSQZo4ggrCNpybBExU8SypuUZV33igI11xw0P7rB3c%3D

Termos de uso

Os usuários de dados externos podem baixar, analisar e publicar resultados livremente com base em qualquer dado de codificação sem restrições, independentemente do tipo ou tamanho, e nenhum período de carência é incluído para a codificação de produtores de dados, seja como membros individuais ou como parte do consórcio. Os pesquisadores que usam dados do ENCODE que não foram publicados são encorajados a entrar em contato com os produtores dos dados para discutir possíveis publicações. O consórcio continuará a publicar os resultados dos próprios esforços de análise em publicações independentes.

O ENCODE solicita que os pesquisadores que usem conjuntos de dados do ENCODE (publicados ou não) em publicações e apresentações citem o Consórcio ENCODE em todas as formas a seguir relatadas em https://www.encodeproject.org/help/citing-encode/.

Contact

Se você tiver dúvidas, preocupações ou comentários, envie um email ao nosso suporte técnico em encode-help@lists.stanford.edu.

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.