ClinVar Annotations

ClinVar es un archivo público de acceso libre de informes sobre las relaciones entre las variantes y los fenotipos humanos, con pruebas que avalan la información. Facilita el acceso a las relaciones afirmadas entre las variantes humanas y el estado de salud observado, así como el historial de cada interpretación, y también facilita la comunicación al respecto. Proporciona acceso a un conjunto más amplio de interpretaciones clínicas que se pueden incorporar a aplicaciones y flujos de trabajo de genómica.

Para obtener más información sobre los datos, consulte el diccionario de datos y las preguntas más frecuentes.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos es un reflejo de ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos contiene unos 56 GB de datos y se actualiza a diario.

Ubicación de almacenamiento

Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.

Acceso a datos

Oeste de EE. UU. 2: "https://datasetclinvar.blob.core.windows.net/dataset"

Centro-oeste de EE. UU.: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"

Token de SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Términos de uso

Los datos están disponibles sin restricciones. Para más información y detalles de cita, consulte Uso de datos y acceso a estos en ClinVar.

Contacto

Si tiene alguna pregunta o comentario sobre este conjunto de datos, póngase en contacto con clinvar@ncbi.nlm.nih.gov.

Acceso a datos

Azure Notebooks

Obtención de los datos ClinVar de Azure Open Datasets

Varios datos de genómica públicos se han cargado como un conjunto de datos de Azure Open Datasets aquí. Creamos un servicio de blob vinculado a este conjunto de datos abierto. Puede encontrar ejemplos del procedimiento de llamada a datos de Azure Open Datasets para conjunto de datos ClinVar a continuación:

Los usuarios pueden llamar a la ruta siguiente y descargarla con este cuaderno: "https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5"

Nota

Los usuarios deben iniciar sesión en su cuenta de Azure mediante la CLI de Azure para ver los datos con el SDK de Azure ML. Por otro lado, no necesitan realizar ninguna acción para descargar los datos.

Para obtener más información sobre cómo instalar la CLI de Azure, consulte Instalación de la CLI de Azure.

Llamada a los datos desde el "conjunto de datos de ClinVar"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Descarga del archivo específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.