Introdução ao Data Quality Services

Aplica-se a:SQL Server

A solução de qualidade de dados fornecida pelo Data Quality Services (DQS) habilita que um administrador de dados ou profissional de TI mantenha a qualidade dos dados e garanta que eles sejam adequados para o uso de negócios. O DQS é uma solução controlada por conhecimento que fornece maneiras assistidas por computador e interativas para gerenciar a integridade e a qualidade de suas fontes de dados. O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus dados. Você pode usar esse conhecimento para executar a limpeza, a correspondência e a criação de perfil de dados. Você também pode aproveitar os serviços baseados em nuvem de provedores de dados de referência em um projeto de qualidade de dados do DQS.

A necessidade comercial do DQS

Dados incorretos podem resultar de erros de entrada de usuário, dano durante a transmissão ou armazenamento, definições incompatíveis de dicionários de dados e outros problemas de qualidade de dados e processos. Agregar dados de origens diferentes que usam padrões de dados diferentes pode resultar em dados inconsistentes, pois pode aplicar uma regra arbitrária ou sobrescrever dados históricos. Dados incorretos afetam a capacidade de uma empresa de executar suas funções comerciais e de fornecer serviços aos seus clientes, o que resulta em perda de credibilidade e receita, insatisfação de clientes e problemas de conformidade. Geralmente, os sistemas automatizados não funcionam com dados incorretos, que desperdiçam tempo e energia das pessoas que executam processos manuais. Dados incorretos podem causar confusão com análise de dados, relatórios, mineração de dados e armazenamento.

Dados de alta qualidade são imprescindíveis para a eficiência de empresas e instituições. Uma organização de qualquer porte pode usar o DQS para aumentar o valor de informações de seus dados, tornando-os mais adequados para sua finalidade. Uma solução de qualidade de dados pode tornar os dados mais confiáveis, acessíveis e reutilizáveis. Pode melhorar a perfeição, exatidão, conformidade e consistência de seus dados, resolvendo problemas causados por dados incorretos em cargas de trabalho de business intelligence ou de data warehouse, bem como em sistemas OLTP operacionais.

O DQS permite que o usuário de uma empresa, um profissional da informação ou de TI, que não seja um especialista em banco de dados nem um programador, crie, mantenha e execute as operações de qualidade de dados de suas organizações com tempo mínimo de instalação e preparação.

Atendimento dessa necessidade com o DQS

A qualidade de dados não é definida em termos absolutos. Ela depende de os dados serem adequados ou não à sua finalidade. O DQS identifica dados possivelmente incorretos e fornece uma avaliação da probabilidade de os dados estarem de fato incorretos. O DQS fornece uma noção semântica dos dados para que você possa decidir sua adequação. O DQS permite resolver problemas que envolvem incompletude, falta de conformidade, inconsistência, imprecisão, invalidade e duplicação de dados.

O DQS fornece os recursos a seguir para resolver problemas de qualidade de dados.

  • Limpeza de Dados: modificação, remoção ou enriquecimento de dados incorretos ou incompletos, usando processos auxiliados por computador e interativos. Para obter mais informações, consulte Data Cleansing.

  • Correspondência: a identificação de duplicatas semânticas em um processo baseado em regras que lhe permite determinar o que constitui uma correspondência e eliminar a duplicação. Para obter mais informações, consulte Data Matching.

  • Serviços de Dados de Referência : verificação da qualidade de seus dados usando os serviços de um provedor de dados de referência. Use os serviços de dados de referência do Microsoft Azure Marketplace para limpar, validar, corresponder e enriquecer os dados. Para obter mais informações, consulte Reference Data Services in DQS.

  • Criação de Perfil: análise de uma fonte de dados para fornecer uma perspectiva da qualidade dos dados em todas as fases da descoberta de conhecimento, do gerenciamento de domínio, da correspondência e dos processos de limpeza de dados. Criação de Perfil é uma ferramenta avançada de uma solução de qualidade de dados do DQS. Você pode criar uma solução de qualidade de dados em que a criação de perfil seja tão importante quanto o gerenciamento de conhecimento, a correspondência ou a limpeza de dados. Para obter mais informações, consulte Data Profiling and Notifications in DQS.

  • Monitoramento: acompanhamento e determinação do estado de atividades de qualidade de dados. O monitorando permite verificar se sua solução de qualidade de dados está se comportando conforme o esperado. Para obter mais informações, consulte DQS Administration.

  • Base de Dados de Conhecimento: o Data Quality Services é uma solução controlada por conhecimento que analisa dados com base no conhecimento compilado com o DQS. Isso permite criar processos de qualidade de dados que aprimoram continuamente o conhecimento sobre seus dados e, consequentemente, aprimoram continuamente a qualidade de seus dados.

A ilustração a seguir mostra o processo do DQS:

DQS Process

Uma solução controlada por conhecimento

A base de dados de conhecimento do DQS é um repositório com três tipos de conhecimento: conhecimento pronto para uso, conhecimento gerado pelo Data Quality Server e conhecimento gerado pelo usuário. O DQS permite armazenar conhecimento sobre seus dados na base de dados de conhecimento, adicionar regras de negócio e modificar o conhecimento conforme você considerar adequado e, depois, aplicá-lo para testar a integridade e a exatidão dos dados. Depois de compilar a base de dados de conhecimento, você pode melhorá-la continuamente e reutilizá-la em vários processos de melhoria da qualidade de dados.

O conhecimento em uma base de dados de conhecimento identifica dados potencialmente incorretos e propõe alterações nos dados. Com isso, é possível localizar correspondências de dados, permitindo eliminar a duplicação de dados. É possível comparar os dados de origem com os dados de referência baseados em nuvem mantidos e garantidos por provedores de qualidade de dados. O administrador de dados ou o profissional de TI verifica o conhecimento na base de dados de conhecimento e as alterações a serem feitas nos dados, e executa a limpeza, a remoção de duplicação e serviços de dados de referência.

Uma base de dados de conhecimento armazena todo o conhecimento relacionado a um tipo específico de fonte de dados. Por exemplo, você poderia manter uma base de dados de conhecimento para um banco de dados de clientes e outra base de dados de conhecimento para um banco de dados de funcionários. O conhecimento é contido em um ou mais domínios de dados, e cada um deles é uma representação semântica de um tipo de dados em um campo de dados. Uma base de dados de conhecimento para um banco de dados de clientes pode conter domínios para nomes de empresas, endereços, contatos, informações de contato e assim por diante. Um domínio contém uma lista de valores confiáveis, valores inválidos e dados errôneos. O conhecimento de domínio inclui associações de sinônimos, relações de termos, regras de negócio e validação e políticas de correspondência. De posse desse conhecimento, o administrador de dados pode tomar uma decisão informada sobre se deve corrigir instâncias específicas dos valores em um domínio.

O DQS permite executar operações de importação e exportação com uma base de dados de conhecimento. Você pode importar ou exportar domínios ou bases de dados de conhecimento usando um arquivo DQS. Você pode importar valores ou domínios de um arquivo do Excel. Você também pode importar valores encontrados por um processo de limpeza fundamentado na base de dados de conhecimento para um domínio. Essas operações permitem melhorar uma base de dados de conhecimento continuamente, garantindo que esse conhecimento adquirido por decisões e descobertas seja retornado à base de dados de conhecimento.

A solução controlada por conhecimento do DQS usa duas etapas fundamentais para limpar dados:

  • Um processo de gerenciamento do conhecimento que cria a base de conhecimento

  • Um projeto de qualidade de dados que propõe alterações na fonte de dados com base no conhecimento da base de dados de conhecimento.

Para obter mais informações, consulte Domínios e bases de dados de conhecimento do DQS e Projetos de qualidade de dados (DQS).

Componentes do DQS

O Data Quality Services consiste no Data Quality Server e no Data Quality Client. Esses componentes permitem executar o Data Quality Services separadamente de outras operações do SQL Server. Os dois são instalados no programa de instalação do SQL Server.

O Data Quality Server é implementado como três catálogos do SQL Server que podem ser gerenciados e monitorados no SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS e DQS_STAGING_DATA). O DQS_MAIN inclui procedimentos armazenados do DQS, o mecanismo do DQS e bases de dados de conhecimento publicadas. O DQS_PROJECTS inclui dados que são necessários para o gerenciamento da base de dados de conhecimento e de atividades de projeto do DQS. O DQS_STAGING_DATA fornece um banco de dados de preparo intermediário onde você pode copiar seus dados de origem para executar operações do DQS e, depois, exportar os dados processados.

O Data Quality Client é um aplicativo independente que habilita a execução de gerenciamento do conhecimento, projetos de qualidade de dados e administração em uma interface do usuário. O aplicativo foi desenvolvido para administradores de dados e administradores do DQS. É um arquivo executável autônomo que executa a descoberta da base de dados de conhecimento, o gerenciamento de domínio, a criação de políticas de correspondência, a limpeza de dados, a correspondência, a criação de perfil, o monitoramento e a administração de servidor. O Data Quality Client pode ser instalado e executado no mesmo computador que o Data Quality Server ou remotamente em um computador separado. Muitas operações no Data Quality Client são orientadas por assistente para facilitar o uso.

Funcionalidade de qualidade de dados no Integration Services e no Master Data Services

A funcionalidade de qualidade de dados fornecida pelo Data Quality Services é integrada a um componente do SSIS (SQL Server Integration Services) e a recursos do MDS (Master Data Services) para permitir que você execute processos de qualidade de dados nesses serviços.

Componente de limpeza do DQS nos serviços de integração

O componente de limpeza do DQS nos serviços de integração habilita a execução da limpeza de dados como parte de um pacote dos serviços de integração. Quando o pacote é executado, a limpeza de dados é executada como um arquivo em lote. Esta é uma alternativa para executar um projeto de limpeza no aplicativo do Data Quality Client. Você pode assegurar a qualidade de seus dados automaticamente. Não é necessário executar as etapas interativas de um projeto de limpeza de dados no aplicativo do Data Quality Client. Você pode incluir o processo de limpeza de dados em um fluxo de dados que contém outros componentes do Integration Services. Para obter mais informações, consulte Transformação de Limpeza DQS.

Processos de qualidade de dados no Master Data Services

A funcionalidade Data Quality Services foi integrada ao MDS (Master Data Services) para que você possa eliminar a duplicação nos dados de origem e nos dados mestre nos fluxos de trabalho do MDS dentro do Suplemento Master Data Services do Microsoft SQL Server 2014 para Microsoft Excel. Para executar correspondência, carregue os dados gerenciados por MDS em uma planilha do Excel, combine-os com dados não gerenciados por MDS e, em seguida, execute a correspondência dentro do Excel. Os componentes do Data Quality Server devem ser instalados com o MDS. Para obter mais informações, consulte Correspondência de qualidade de dados no Suplemento do MDS para Excel.