Visor y tarea de generación de perfiles de datosData Profiling Task and Viewer

La tarea de generación de perfiles de datos proporciona la funcionalidad para generar perfiles de datos dentro del proceso de extracción, transformación y carga de datos.The Data Profiling task provides data profiling functionality inside the process of extracting, transforming, and loading data. El uso de esta tarea le permitirá:By using the Data Profiling task, you can achieve the following benefits:

  • Analizar los datos de origen de forma más eficaz.Analyze the source data more effectively

  • Comprender mejor la estructura de los datos de origen.Understand the source data better

  • Evitar problemas de calidad en los datos antes de incluirlos en el almacenamiento de datos.Prevent data quality problems before they are introduced into the data warehouse.

Importante

La tarea de generación de perfiles de datos solo funciona con datos que estén almacenados en SQL ServerSQL Server.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. No funciona con orígenes de datos de otros fabricantes o basados en archivos.It does not work with third-party or file-based data sources.

Información general de generación de perfiles de datosData Profiling Overview

La calidad de los datos es importante en todos los negocios.Data quality is important to every business. A medida que las empresas desarrollan sistemas analíticos y de inteligencia empresarial sobre sus sistemas transaccionales, la fiabilidad de los indicadores clave de rendimiento y de las predicciones de la minería de datos dependerán por completo de la validez de los datos en los que se basan.As enterprises build analytical and business intelligence systems on top of their transactional systems, the reliability of key performance indicators and of data mining predictions depends completely on the validity of the data on which they are based. Pero aunque la importancia de disponer de datos válidos para la toma de decisiones empresariales está aumentando, también lo hace en la misma medida el desafío de garantizar la validez de los mismos.But although the importance of valid data for business decision-making is increasing, the challenge of making sure of this data's validity is also increasing. La información fluye de forma ininterrumpida en la empresa procedente de diversos sistemas y orígenes, y de un gran número de usuarios.Data is streaming into the enterprise constantly from diverse systems and sources, and a large numbers of users.

Las métricas para determinar la calidad de los datos pueden ser difíciles de definir porque son específicas del dominio o de la aplicación.Metrics for data quality can be difficult to define because they are specific to the domain or the application. Un método común para definir la calidad de los datos es la generación de perfiles de datos.One common approach to defining data quality is data profiling.

Un perfil de datos es una colección de estadísticas acumuladas sobre los datos que puede incluir la siguiente información:A data profile is a collection of aggregate statistics about data that might include the following:

  • El número de filas de la tabla de clientes.The number of rows in the Customer table.

  • El número de valores distintos en la columna Estado.The number of distinct values in the State column.

  • El número de valores nulos o ausentes en la columna Código postal.The number of null or missing values in the Zip column.

  • La distribución de los valores en la columna Ciudad.The distribution of values in the City column.

  • La solidez de la dependencia funcional entre la columna Estado y la columna Código postal; es decir, el estado siempre debería ser el mismo para un valor de código postal determinado.The strength of the functional dependency of the State column on the Zip column—that is, the state should always be the same for a given zip value.

    Las estadísticas proporcionadas por un perfil de datos le ofrecen la información que necesita para minimizar de forma eficaz los problemas de calidad derivados del uso de los datos de origen.The statistics that a data profile provides gives you the information that you need in order to effectively minimize the quality issues that might occur from using the source data.

Integration Services y generación de perfiles de datosIntegration Services and Data Profiling

En Integration ServicesIntegration Services, el proceso de generación de perfiles de datos consta de los pasos siguientes:In Integration ServicesIntegration Services, the data profiling process consist of the following steps:

Paso 1: Preparar la tarea de generación de perfiles de datosStep 1: Setting up the Data Profiling Task
La tarea de generación de perfiles de datos es una tarea que se utiliza para configurar los perfiles que se desean calcular.The Data Profiling task is a task that you use to configure the profiles that you want to compute. A continuación, se ejecuta el paquete que contiene la tarea de generación de perfiles de datos para calcular los perfiles.You then run the package that contains the Data Profiling task to compute the profiles. La tarea guarda el perfil generado en formato XML en un archivo o en una variable de paquete.The task saves the profile output in XML format to a file or a package variable.

Para obtener más información: Configuración de la Tarea de generación de perfiles de datosFor more information: Setup of the Data Profiling Task

Paso 2: Revisar los perfiles calculados por la tarea de generación de perfiles de datosStep 2: Reviewing the Profiles that the Data Profiling Task Computes
Para ver los perfiles de datos calculados por la tarea de generación de perfiles de datos, se envía la salida a un archivo y, a continuación, se utiliza el Visor de perfil de datos.To view the data profiles that the Data Profiling task computes, you send the output to a file, and then you use the Data Profile Viewer. Este visor es una utilidad independiente que muestra el perfil generado tanto en formato resumen como en formato detallado, y que también permite la obtención de detalles.This viewer is a stand-alone utility that displays the profile output in both summary and detail format with optional drilldown capability.

Para obtener más información: Visor de perfil de datosFor more information: Data Profile Viewer

Inclusión de la lógica condicional al flujo de trabajo que genera perfiles de datosAddition of Conditional Logic to the Data Profiling Workflow

La tarea de generación de perfiles de datos no tiene características integradas que le permitan utilizar lógica condicional para conectar esta tarea a las tareas de nivel inferior según el perfil generado.The Data Profiling task does not have built-in features that allow you to use conditional logic to connect this task to downstream tasks based on the profile output. Sin embargo, puede agregar fácilmente esta lógica, con una pequeña cantidad de programación, en una tarea Script.However, you can easily add this logic, with a small amount of programming, in a Script task. Por ejemplo, la tarea Script puede realizar una consulta XPath en el archivo de salida de la tarea de generación de perfiles de datos.For example, the Script task could perform an XPath query against the output file of the Data Profiling task. La consulta podría determinar si el porcentaje de valores nulos en una columna determinada supera un cierto umbral.The query could determine whether the percentage of null values in a particular column exceeds a certain threshold. Si el porcentaje supera el umbral, puede interrumpir el paquete y resolver el problema en los datos de origen antes de continuar.If the percentage exceeds the threshold, you could interrupt the package and resolve the problem in the source data before continuing. Para obtener más información, vea Incorporar una tarea de generación de perfiles de datos en un flujo de trabajo de paquetes.For more information, see Incorporate a Data Profiling Task in Package Workflow.

Esquema del generador de perfiles de datosData Profiler Schema