Bases de conocimiento y dominios de DQS

Se aplica a:SQL Server

En este tema se describe lo qué es una base de conocimiento en Data Quality Services (DQS). Para limpiar datos, debe tener conocimiento sobre los datos. Para preparar el conocimiento de un proyecto de calidad de datos, se crea y mantiene una base de conocimiento (BC) que DQS puede usar para identificar datos incorrectos o no válidos. Con DQS puede usar procesos asistidos por PC y procesos interactivos para crear, compilar y actualizar la base de conocimiento. El conocimiento de una base de conocimiento se mantiene en dominios, donde cada uno de ellos es específico para un campo de datos. La base de conocimiento es un repositorio de conocimiento sobre los datos que le permite comprenderlos y mantener su integridad.

Las bases de conocimiento de DQS tienen las siguientes ventajas:

  • La generación de conocimiento sobre los datos es un proceso detallado. El proceso de DQS para extraer conocimiento sobre los datos automáticamente, a partir de datos de muestra, hace que el proceso sea mucho más fácil.

  • DQS le permite ver su análisis de los datos y aumentar el conocimiento de la base de conocimiento por medio de la creación de reglas y modificación de los valores de datos. Esto lo puede hacer de forma repetida con el fin de mejorar el conocimiento con el paso del tiempo.

  • Puede aprovechar el conocimiento existente de calidad de datos si basa una base de conocimiento en una BC existente, de forma que se importa conocimiento de dominios desde archivos en la BC, desde un proyecto nuevo a la BC o bien, mediante la BC predeterminada de DQS, datos de DQS.

  • Puede garantizar la calidad de los datos si los compara con los datos que mantiene un proveedor de datos de referencia.

  • Hay una diferencia clara entre generar una base de conocimiento y aplicarla en el proceso de corrección de datos, el cual ofrece flexibilidad en la forma de generar y actualizar la base de conocimiento.

El administrador de datos usa la aplicación Data Quality Client para ejecutar y controlar los pasos asistidos por ordenador y realizar los pasos interactivos.

La ilustración siguiente muestra los diferentes componentes de una base de conocimiento y un dominio de DQS:

Knowledge Base and Domains in DQS

Cómo crear y generar una base de conocimiento de DQS

Generar una base de conocimiento de DQS conlleva los siguientes procesos y componentes:

Detección de conocimiento
Proceso asistido por PC que genera conocimiento en una base de conocimiento mediante el procesamiento de una muestra de datos

Administración de dominios
Proceso interactivo que permite al administrador de datos comprobar y modificar el conocimiento que se encuentra en los dominios de la base de conocimiento, donde cada uno de ellos está asociado a un campo de datos. Esto puede incluir la configuración de propiedades en todos los campos, la creación de reglas, la modificación de valores específicos, el uso de servicios de datos de referencia o el establecimiento de relaciones basadas en términos o entre campos.

Reference Data Services
Proceso de administración de dominios para validar datos frente a los datos que mantiene y protege un proveedor de datos de referencia.

Directiva de coincidencia
Directiva que define cómo procesa DQS los registros para identificar las posibles repeticiones y la ausencia de coincidencias, que se integra en la base de conocimiento en los procesos asistidos por PC y en los procesos interactivos.

Detección de conocimiento

La creación de la base de conocimiento es un proceso inicialmente asistido por PC. La actividad de detección de conocimiento genera la base de conocimiento; para ello, analiza una muestra de datos para ver si cumplen los criterios de calidad de los datos, buscando incoherencias y errores de sintaxis en los datos, aplicando reglas de dominio y proponiendo cambios en los datos. Este análisis se basa en los algoritmos integrados en DQS.

El administrador de datos prepara el proceso vinculando una base de conocimiento a una tabla o vista de base de datos de SQL Server que contiene datos de ejemplo similares a los datos que la base de conocimiento utilizará para el análisis. A continuación, el administrador de datos asigna un dominio de la base de conocimiento a cada columna de los datos de ejemplo que se van a analizar. Un dominio puede tratarse de un solo dominio que se asigna a un único campo o puede ser un dominio compuesto formado de varios dominios únicos donde cada uno de ellos se asigna a parte de los datos en un solo campo (vea el tema"Dominios compuestos" a continuación). Cuando se ejecute la detección de conocimiento, DQS extraerá información sobre la calidad de datos de los datos de ejemplo y la situará en los dominios de la base de conocimiento. Cuando haya ejecutado el análisis de detección del conocimiento, tendrá una base de conocimiento con la que puede corregir datos.

La base de conocimiento de DQS es extensible. Desde la actividad de detección del conocimiento, puede agregar de forma interactiva conocimiento a la base de conocimiento después del análisis de detección del conocimiento asistido por PC. Puede agregar manualmente cambios e importar valores de dominio desde un archivo de Excel. Por otra parte, puede volver a ejecutar el proceso de detección del conocimiento más adelante si los datos de la muestra han cambiado. Puede aplicar más conocimiento desde la actividad de administración de dominios y desde la actividad de búsqueda de coincidencias de datos (se explica más adelante).

No es necesario realizar el proceso de detección del conocimiento en los mismos datos en que se realiza la corrección de datos. DQS proporciona la flexibilidad para crear conocimiento a partir de un conjunto de campos de la base de datos y aplicarlo a un segundo conjunto de datos relacionados que es necesario limpiar. El administrador de datos puede crear una nueva base de conocimiento desde cero o basarla en una base de conocimiento existente, o puede importar una base de conocimiento desde un archivo de datos. También puede volver a ejecutar la detección del conocimiento en una base de conocimiento existente. Puede mantener varias bases de conocimiento en un único servidor de Data Quality Server. También puede conectar varias instancias de una aplicación a la misma base de conocimiento. DQS evita conflictos de simultaneidad bloqueando la base de conocimiento al usuario que la abre en una sesión de administración del conocimiento.

Sin distinción de mayúsculas y minúsculas en DQS

Los valores de DQS no distinguen entre mayúsculas y minúsculas. Esto significa que cuando DQS realiza la detección del conocimiento, la administración de dominios o la búsqueda de coincidencias, no distingue valores según las mayúsculas o minúsculas. Si agrega un valor en la administración de valores que sea distinto de otro valor solo porque lleve mayúsculas o minúsculas, se considerarán el mismo valor, pero no sinónimos. Si dos valores que solo se diferencien en el uso de mayúsculas y minúsculas se comparan en el proceso de búsqueda de coincidencias, se considerarán coincidencias exactas.

Puede, no obstante, controlar el uso de mayúsculas y minúsculas en los valores que exporta en los resultados de la limpieza. Para ello, establezca la propiedad de dominio Dar formato a la salida para (consulte Establecer las propiedades de dominio) y active la casilla Estandarizar salida al exportar los resultados de la limpieza (consulte Limpiar datos mediante el conocimiento de DQS (interno)).

Administración de dominios

La administración de dominios permite al administrador de datos cambiar y aumentar de forma interactiva los metadatos generados por la actividad de detección de conocimiento asistido por PC. Cada cambio que realice es para un dominio de la base de conocimiento. En la actividad de administración de dominios, puede hacer lo siguiente:

  • Crear un nuevo dominio. El nuevo dominio se puede vincular a un dominio existente o copiarlo a partir de este.

  • Establecer las propiedades de dominio que se aplican a cada término en el dominio.

  • Aplicar reglas de dominio que efectúen la validación o la normalización para un intervalo de valores que defina.

  • Aplicar de forma interactiva los cambios a cualquier valor de datos específico del dominio.

  • Usar el corrector ortográfico de DQS para comprobar la sintaxis, la ortografía y la estructura de la frases de los valores de cadena.

  • Importar un dominio desde un archivo de datos .dqs o los valores del dominio de un archivo de Microsoft Excel.

  • Importar valores que se han encontrado en un proceso de limpieza en un proyecto de calidad de datos de vuelta a una base de conocimiento.

  • Adjuntar un dominio a los datos de referencia que mantiene un proveedor de datos de referencia, con el resultado de que los valores de dominio se comparan con los datos de referencia para determinar su integridad y corrección. Asimismo, puede establecer valores del proveedor de datos.

  • Aplicar relaciones basadas en términos para un único dominio.

Cuando se completa la actividad de administración de dominios, puede publicar la base de conocimiento en un proyecto de datos.

Establecer las propiedades de dominio

Las propiedades de dominio definen y controlan el procesamiento que se va a aplicar a los valores asociados. Puede establecer el tipo de datos y el idioma de los valores, especificar que los datos de origen se limpiarán con el valor inicial (si se desactiva esta opción, los datos de origen se limpiarán con el término correcto pero no con el valor inicial), asegurar la normalización de datos configurando el formato que se aplicará cuando se generen los valores de datos del dominio, y definir los algoritmos (error de sintaxis, corrector ortográfico, y normalización de cadena) que se aplicarán.

Reference Data Services

En el proceso de administración de dominios, puede adjuntar datos de referencia en línea a un dominio. De esta forma compara los datos en el dominio con los datos que mantiene un proveedor de datos de referencia. Primero debe configurar el proveedor de datos de referencia mediante las funciones de configuración de DQS en la sección Administración de aplicación Data Quality Client. Para obtener más información, consulte Reference Data Services in DQS.

Aplicar reglas de dominio

Puede crear reglas de dominio para la validación de datos. Las reglas de dominio garantizan la exactitud de los datos, e incluyen desde una restricción básica, como los posibles términos que puede ser un valor de cadena, hasta una expresión regular más compleja, como los formatos válidos para una dirección de correo electrónico.

Respecto a los dominios compuestos, puede crear una regla de CD que especifique una relación entre un valor en un solo dominio y un valor en otro dominio único, donde ambos forman parte de un dominio compuesto.

Establecer valores de dominio

Una vez haya generado una base de conocimiento, puede rellenar y mostrar valores de datos en cada dominio de la base de conocimiento. Después de haber realizado la detección del conocimiento, DQS mostrará el número de veces que aparece cada término, cuál es el estado de cada término y las revisiones que se proponen. Puede administrar este conocimiento como sigue:

  • Cambiar el estado de un valor, corregirlo, marcar un error o establecerlo como no válido

  • Agregar un valor específico o eliminar un valor específico en la base de conocimiento

  • Cambiar la relación de un valor con otro valor, lo cual incluye designar un reemplazo para un término que tenga un error o no sea válido

  • Agregar, quitar o cambiar conocimiento asociado al dominio.

El usuario puede crear los valores de forma específica o dentro de las funcionalidades de detección o importación de datos. De esta forma, podrá alinear el dominio al negocio, lo cual facilita la implementación de su capacidad de extensión.

Puede establecer valores de dominio en la actividad de administración de dominios o en el paso de administración de valores del dominio al final de la actividad de detección de conocimiento. La funcionalidad establecer valores de dominio es la misma en ambas actividades.

Establecer relaciones de términos

En la administración de dominios, puede especificar una relación basada en términos para un solo dominio; para ello, se especifica un cambio para un único valor.

Dominios compuestos

Un dominio compuesto es una estructura formada por dos dominios únicos o más que contienen cada uno de ellos conocimiento de datos comunes. Entre los ejemplos de datos que pueden tratar los dominios compuestos se encuentran los nombres y los apellidos en los campos de nombre, el número y la calle del inmueble, la ciudad, la provincial el código postal y el país o región en un campo de dirección. Cuando asigna un solo campo a un dominio compuesto, DQS analiza los datos de ese campo en los diversos dominios que componen el dominio compuesto.

En ocasiones, un único dominio no representa datos de campo en su totalidad. Si se agrupan dos o más dominios en un dominio compuesto, podrá representar los datos de forma eficaz. A continuación, se presentan algunas ventajas del uso de los dominios compuestos:

  • El análisis de distintos dominios únicos que componen un dominio compuesto puede ser una forma más eficaz de evaluar la calidad de los datos.

  • Cuando se utiliza un dominio compuesto, también se pueden crear reglas para todos los dominios con el fin comprobar que la relación entre los datos de varios dominios es adecuada. Por ejemplo, puede comprobar que la cadena "Londres" en un dominio de ciudad se corresponde con la cadena "Gran Bretaña" en un dominio de país o región. Observe que las reglas para varios dominios se tienen en cuenta después de las reglas de dominio.

  • Los datos en dominios compuestos se pueden adjuntar a un origen de datos de referencia, en cuyo caso el dominio compuesto se enviará al proveedor de datos de referencia. Esto se suele hacer con datos de direcciones.

La forma en que se analizan los datos que representan un dominio compuesto está determinada por las propiedades compuestas de dominio. Los datos se pueden analizar por un delimitador, por el orden de los dominios o basarse en el conocimiento de los dominios conectados al dominio compuesto (seleccionando la propiedad Usar el análisis de bases de conocimiento en el dominio compuesto). Para obtener más información, consulte Set Composite Domain Properties.

Los dominios compuestos se administran de manera diferente a los dominios únicos. En los dominios compuestos, no se administran valores; sí se hace para los dominios únicos que componen el dominio compuesto. Sin embargo, en la lista de dominios de la actividad de administración de dominios, puede ver las relaciones entre los diferentes valores en un dominio compuesto, así como las estadísticas que se aplican. Por ejemplo, puede ver el número de instancias que pertenecen a una sola dirección que está compuesta por los mismos cinco valores de cadena. En el paso de detección de la actividad de detección de conocimiento, se realiza la creación de perfiles en los dominios únicos dentro de un dominio compuesto, no en el dominio compuesto. Sin embargo, en la limpieza interactiva, se limpian los datos en el dominio compuesto, no en los dominios únicos.

Se puede realizar la búsqueda de coincidencias en los dominios únicos que componen el dominio compuesto, pero no en el dominio compuesto en sí.

Coincidencia de datos

Además de realizar cambios manuales en una base de conocimiento mediante la administración de dominios, puede agregar conocimiento coincidente a una base de conocimiento. Al objeto de preparar a DQS para el proceso de eliminación de datos duplicados, debe crear una directiva de búsqueda de coincidencias que vaya a usar DQS para calcular la probabilidad de encontrar coincidencias. La directiva incluye una o varias reglas de búsqueda de coincidencias que crea el administrador de datos para identificar cómo DQS debe comparar filas de datos. El administrador de datos determina qué campos de datos en la fila se deben comparar y el peso que debe tener cada campo en la comparación. El administrador de datos también determinará cuán alta será la probabilidad para que se identifique como coincidencia. DQS agrega las reglas de búsqueda de coincidencias a la base de conocimiento para su uso en el desarrollo de la actividad de búsqueda de coincidencias en el proyecto de calidad de datos.

Para obtener más información acerca de la base de conocimiento y la búsqueda de coincidencias, vea Coincidencia de datos.

En esta sección

Puede realizar las siguientes operaciones en una base de conocimiento y sus dominios:

Descripción de la operación Tema
Crear, abrir, agregar conocimiento y llevar a cabo la detección en una base de conocimiento Compilar una base de conocimiento
Realizar operaciones de importación y exportación en dominios y bases de conocimiento Importar y exportar conocimiento
Crear un solo dominio, una regla de dominio, relaciones basadas en términos y cambiar valores de dominio Administrar un dominio
Crear un dominio compuesto, crear reglas para varios dominios y usar relaciones de valor Administrar un dominio compuesto
Usar la base de conocimiento predeterminada de DQS integrada en DQS Usar la base de conocimiento predeterminada de DQS