Tarefa e visualizador da tarefa Criação de Perfil de DadosData Profiling Task and Viewer

A tarefa Criação de Perfil de Dados fornece a funcionalidade de criação de perfil de dados dentro do processo de extração, transformação e carga de dados.The Data Profiling task provides data profiling functionality inside the process of extracting, transforming, and loading data. Usando a tarefa Criação de Perfil de Dados, você pode alcançar os seguintes benefícios:By using the Data Profiling task, you can achieve the following benefits:

  • Analisar os dados de origem mais efetivamenteAnalyze the source data more effectively

  • Entender melhor os dados de origemUnderstand the source data better

  • Prevenir problemas de qualidade dos dados antes que eles sejam introduzidos no data warehouse.Prevent data quality problems before they are introduced into the data warehouse.

Importante

A tarefa Criação de Perfil de Dados funciona apenas com dados armazenados no SQL ServerSQL Server.The Data Profiling task works only with data that is stored in SQL ServerSQL Server. Ela não funciona com fontes de dados de terceiros ou baseadas em arquivos.It does not work with third-party or file-based data sources.

Visão geral da Criação de Perfil de DadosData Profiling Overview

A qualidade dos dados é importante para todo negócio.Data quality is important to every business. Como as empresas constroem sistemas analíticos e de business intelligence no topo de seus sistemas transacionais, a confiabilidade dos indicadores chave de desempenho e das previsões da mineração de dados, depende completamente da validade dos dados onde eles são baseados.As enterprises build analytical and business intelligence systems on top of their transactional systems, the reliability of key performance indicators and of data mining predictions depends completely on the validity of the data on which they are based. Mas, embora a importância da validade dos dados para a realização das decisões de negócios esteja crescendo, o desafio de certificar-se da validade dos dados também está aumentando.But although the importance of valid data for business decision-making is increasing, the challenge of making sure of this data's validity is also increasing. Dentro da empresa os dados estão fluindo constantemente de diversos sistemas e fontes e de um grande número de usuários.Data is streaming into the enterprise constantly from diverse systems and sources, and a large numbers of users.

Métrica para qualidade de dados pode ser difícil de definir porque eles são específicos ao domínio ou aplicativo.Metrics for data quality can be difficult to define because they are specific to the domain or the application. Uma abordagem comum para definir qualidade de dados é a criação de perfil de dados.One common approach to defining data quality is data profiling.

Um perfil de dados é uma coleção de estatísticas de agregação sobre os dados que podem incluir o seguinte:A data profile is a collection of aggregate statistics about data that might include the following:

  • O número de linhas na tabela Cliente.The number of rows in the Customer table.

  • O número de valores distintos na coluna Estado.The number of distinct values in the State column.

  • O número de valores ausentes ou nulos na coluna Zip.The number of null or missing values in the Zip column.

  • A distribuição de valores na coluna Cidade.The distribution of values in the City column.

  • A intensidade da dependência funcional da coluna Estado na coluna Zip, ou seja, o Estado deve sempre ser o mesmo para determinado valor de Zip.The strength of the functional dependency of the State column on the Zip column—that is, the state should always be the same for a given zip value.

    As estatísticas que a criação de perfil de dados provê, fornecem a informação necessária para efetivamente minimizar as perdas de qualidade que podem ocorrer do uso da fonte de dados.The statistics that a data profile provides gives you the information that you need in order to effectively minimize the quality issues that might occur from using the source data.

Integration Services e criação de perfil de dadosIntegration Services and Data Profiling

Em Integration ServicesIntegration Services, o processo de criação de perfil de dados consiste nas seguintes etapas:In Integration ServicesIntegration Services, the data profiling process consist of the following steps:

Etapa 1: Definindo a tarefa Criação de Perfil de DadosStep 1: Setting up the Data Profiling Task
A tarefa Criação de Perfil de Dados é uma tarefa que você usa para configurar os perfis que deseja calcular.The Data Profiling task is a task that you use to configure the profiles that you want to compute. Você executa o pacote que contém a tarefa de Criação de Perfil de Dados para computar os perfis.You then run the package that contains the Data Profiling task to compute the profiles. A tarefa salva o perfil produzido em formato de XML em um arquivo ou uma variável de pacote.The task saves the profile output in XML format to a file or a package variable.

Para obter mais informações: Instalação da Tarefa de Criação de Perfil de DadosFor more information: Setup of the Data Profiling Task

Etapa 2: Revisando os perfis que a tarefa Criação de Perfis de Dados computaStep 2: Reviewing the Profiles that the Data Profiling Task Computes
Para exibir os perfis de dados que a tarefa Criação de Perfil de Dados computa, envie a saída para um arquivo e utilize o Visualizador de Perfil de dadosTo view the data profiles that the Data Profiling task computes, you send the output to a file, and then you use the Data Profile Viewer. Esse visualizador é um utilitário autônomo que mostra a saída do perfil em formato resumido e detalhado com uma capacidade opcional de busca.This viewer is a stand-alone utility that displays the profile output in both summary and detail format with optional drilldown capability.

Para obter mais informações: Visualizador de Perfil de DadosFor more information: Data Profile Viewer

Adição de lógica condicional ao fluxo de trabalho de criação de perfil de dados.Addition of Conditional Logic to the Data Profiling Workflow

A tarefa Criação de Perfil de Dados não tem recursos internos que lhe permitam usar lógica condicional para conectar essa tarefa a tarefas de downstream com base na saída do perfil.The Data Profiling task does not have built-in features that allow you to use conditional logic to connect this task to downstream tasks based on the profile output. Porém, você pode adicionar facilmente esta lógica, com uma quantidade pequena de programação, em uma tarefa de Script.However, you can easily add this logic, with a small amount of programming, in a Script task. Por exemplo, a tarefa Script poderia executar uma consulta XPath contra o arquivo de saída da tarefa de Criação de Perfil de Dados.For example, the Script task could perform an XPath query against the output file of the Data Profiling task. A consulta poderia determinar se a porcentagem de valores nulos em uma coluna particular excede certo limite.The query could determine whether the percentage of null values in a particular column exceeds a certain threshold. Se a porcentagem exceder o limite, você pode interromper o pacote e resolver o problema na fonte de dados antes de continuar.If the percentage exceeds the threshold, you could interrupt the package and resolve the problem in the source data before continuing. Para obter informações, consulte Incorporar uma tarefa Criação de Perfil de Dados no fluxo de trabalho do pacote.For more information, see Incorporate a Data Profiling Task in Package Workflow.

Esquema do criador de perfil de dadosData Profiler Schema