ClinVar Annotations
ClinVar es un archivo público de acceso libre de informes sobre las relaciones entre las variantes y los fenotipos humanos, con pruebas que avalan la información. Facilita el acceso a las relaciones afirmadas entre las variantes humanas y el estado de salud observado, así como el historial de cada interpretación, y también facilita la comunicación al respecto. Proporciona acceso a un conjunto más amplio de interpretaciones clínicas que se pueden incorporar a aplicaciones y flujos de trabajo de genómica.
Para obtener más información sobre los datos, consulte el diccionario de datos y las preguntas más frecuentes.
Nota
Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.
Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.
Origen de datos
Este conjunto de datos es un reflejo de ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Volúmenes de datos y frecuencia de actualización
Este conjunto de datos contiene unos 56 GB de datos y se actualiza a diario.
Ubicación de almacenamiento
Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.
Acceso a datos
Oeste de EE. UU. 2: "https://datasetclinvar.blob.core.windows.net/dataset"
Centro-oeste de EE. UU.: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
Token de SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Términos de uso
Los datos están disponibles sin restricciones. Para más información y detalles de cita, consulte Uso de datos y acceso a estos en ClinVar.
Contacto
Si tiene alguna pregunta o comentario sobre este conjunto de datos, póngase en contacto con clinvar@ncbi.nlm.nih.gov.
Acceso a datos
Azure Notebooks
Obtención de los datos ClinVar de Azure Open Datasets
Varios datos de genómica públicos se han cargado como un conjunto de datos de Azure Open Datasets aquí. Creamos un servicio de blob vinculado a este conjunto de datos abierto. Puede encontrar ejemplos del procedimiento de llamada a datos de Azure Open Datasets para conjunto de datos ClinVar
a continuación:
Los usuarios pueden llamar a la ruta siguiente y descargarla con este cuaderno: "https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5"
Nota
Los usuarios deben iniciar sesión en su cuenta de Azure mediante la CLI de Azure para ver los datos con el SDK de Azure ML. Por otro lado, no necesitan realizar ninguna acción para descargar los datos.
Para obtener más información sobre cómo instalar la CLI de Azure, consulte Instalación de la CLI de Azure.
Llamada a los datos desde el "conjunto de datos de ClinVar"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Descarga del archivo específico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Pasos siguientes
Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.