Limpeza de DadosData Cleansing

Limpeza de dados é o processo de analisar a qualidade de dados em uma fonte de dados, aprovando/rejeitando as sugestões manualmente pelo sistema e fazer alterações assim aos dados.Data cleansing is the process of analyzing the quality of data in a data source, manually approving/rejecting the suggestions by the system, and thereby making changes to the data. A limpeza de dados no Data Quality ServicesData Quality Services (DQS) inclui um processo auxiliado por computador que analisa a conformidade dos dados em relação ao conhecimento de uma base de dados de conhecimento, e um processo interativo que permite que o administrador de dados examine e modifique resultados de processo auxiliado por computador para garantir que a limpeza de dados seja executada exatamente como desejado.Data cleansing in Data Quality ServicesData Quality Services (DQS) includes a computer-assisted process that analyzes how data conforms to the knowledge in a knowledge base, and an interactive process that enables the data steward to review and modify computer-assisted process results to ensure that the data cleansing is exactly as they want to be done.

O administrador de dados também pode executar a limpeza de dados no processo de empacotamento do Integration Services.The data steward can also perform data cleansing in the Integration Services packaging process. Neste caso, o administrador de dados deve usar um componente do Componente de limpeza DQS no Integration ServicesDQS Cleansing component in Integration Services que executa automaticamente a limpeza de dados com o uso de uma base de conhecimento existente.In this case, the data steward would use the Componente de limpeza DQS no Integration ServicesDQS Cleansing component in Integration Services that automatically performs data cleansing using an existing knowledge base. Para obter mais informações, consulte Transformação de Limpeza DQS.For more information, see DQS Cleansing Transformation.

O recurso de limpeza de dados no DQS tem os seguintes benefícios:The data cleansing feature in DQS has the following benefits:

  • Identifica dados incompletos ou incorretos em sua fonte de dados (arquivo do Excel ou banco de dados do SQL Server) e então corrige ou o alerta sobre os dados inválidos.Identifies incomplete or incorrect data in your data source (Excel file or SQL Server database), and then corrects or alerts you about the invalid data.

  • Oferece processo de duas etapas para limpar os dados: auxiliado por computador e interativo.Provides two-step process to cleanse the data: computer-assisted and interactive. O processo por computador usa o conhecimento em uma base de conhecimento de DQS para processar os dados automaticamente e sugere substituições/correções.The computer-assisted process uses the knowledge in a DQS knowledge base to automatically process the data, and suggest replacements/corrections. A próxima etapa, interativa, permite que o administrador de dados aprove, rejeite ou modifique as alterações propostas pelo DQS durante a limpeza auxiliada por computador.The next step, interactive, allows the data steward to approve, reject, or modify the changes proposed by the DQS during the computer-assisted cleansing.

  • Unifica e enriquece dados de cliente usando valores de domínio, regras de domínio e dados de referência.Standardizes and enriches customer data by using domain values, domain rules, and reference data. Por exemplo, padronize o uso do termo alterando "R."For example, standardize term usage by changing “St.” por "Rua", enriqueça os dados inserindo elementos ausentes ao alterar "1 Microsoft way Redmond 98006" por "1 Microsoft Way, Redmond, WA 98006".to “Street”, enrich data by filling in missing elements by changing “1 Microsoft way Redmond 98006” to “1 Microsoft Way, Redmond, WA 98006”.

  • Oferece uma interface de assistente simples, intuitiva e consistente para que o usuário navegue pelos dados e inspecione erros em um conjunto muito grande de dados.Provides a simple, intuitive, and consistent wizard-like interface to the user to navigate data and inspect errors amongst a very large set of data.

    A ilustração seguinte mostra como a limpeza de dados é feita no DQS:The following illustration displays how data cleansing is done in DQS:

    Processo de limpeza de dados no DQSData Cleansing Process in DQS

Limpeza auxiliada por computadorComputer-assisted Cleansing

O processo de limpeza de dados do DQS aplica a base de conhecimento aos dados a serem limpos e propõe alterações nos dados.The DQS data cleansing process applies the knowledge base to the data to be cleansed, and proposes changes to the data. O administrador de dados tem acesso a cada alteração proposta, o que permite que ele avalie e corrija as alterações.The data steward has access to each proposed change, enabling him or her to assess and correct the changes. Para executar a limpeza de dados, o administrador de dados procede da seguinte maneira:To perform data cleansing, the data steward proceeds as follows:

  1. Crie um projeto de qualidade de dados, selecione uma base de dados de conhecimento na qual você deseja analisar e limpar seus dados de origem e selecione a atividade Limpeza .Create a data quality project, select a knowledge base against which you want to analyze and cleanse your source data, and select the Cleansing activity. Vários projetos de qualidade de dados podem usar a mesma base de dados de conhecimento.Multiple data quality projects can use the same knowledge base.

  2. Especifique a tabela de banco de dados/exibição ou um arquivo do Excel que contenha os dados de origem a serem limpos.Specify the database table/view or an Excel file that contains the source data to be cleansed. O banco de dados ou o arquivo do Excel pode ser o mesmo que foi usado para a descoberta de conhecimento ou pode ser um banco de dados ou arquivo do Excel diferente.The database or the Excel file can be the same one that was used for knowledge discovery, or it can be a different database or Excel file.

    Observação

    Se você selecionar a mesma fonte de dados para atividades de descoberta de conhecimento e de limpeza, não haverá nenhuma alteração aos dados.If you select the same data source for knowledge discovery and cleansing activities, there will be no change to the data. É recomendado que você execute a descoberta de conhecimento em dados de exemplo e posteriormente limpe seus dados de origem em relação ao conhecimento compilado durante a atividade de descoberta de conhecimento.It is recommended that you run knowledge discovery on a sample data, and later cleanse your source data against the knowledge built during the knowledge discovery activity.

  3. Mapeie os campos de dados a ser limpos para os domínios/domínios compostos apropriados na base de dados de conhecimento.Map the data fields to be cleansed to appropriate domains/composite domains in the knowledge base. Se você mapear um campo para um domínio composto, o mapeamento acontecerá entre o campo e o domínio composto, e não com os domínios individuais no domínio composto.If you map a field to a composite domain, the mapping happens between the field and the composite domain, and not with the individual domains in the composite domain. Além disso, a limpeza de dados para o campo mapeado é feita com base nas regras especificadas para o domínio composto, e não para os domínios individuais no domínio composto.Also, the data cleansing for the mapped field is done based on the rules specified for the composite domain, and not for the individual domains in the composite domain. Para obter mais informações sobre domínios compostos, consulte DQS Knowledge Bases and Domains.For more information about composite domains, see DQS Knowledge Bases and Domains.

  4. Execute o processo de limpeza auxiliada por computador clicando em Iniciar na página Limpeza .Run the computer-assisted cleansing process by clicking Start on the Cleanse page.

    O processo de limpeza de dados localiza a melhor correspondência de uma instância de dados a valores de domínio de dados conhecidos.The data cleansing process finds the best match of an instance of data to known data domain values. O processo aplica conhecimento de qualidade de dados a todos os dados de origem, ao contrário do processo de descoberta da base de dados de conhecimento que é executado em um percentual dos dados de exemplo.The process applies data quality knowledge to all source data, unlike the knowledge discovery process, which runs on a percentage of the sample data.

    O processo auxiliado por computador exibe informações de qualidade dos dados no Cliente Data QualityData Quality Client que serão usadas no processo de limpeza interativo.The computer-assisted process displays data quality information in Cliente Data QualityData Quality Client that will be used for the interactive cleansing process. Além da aderência às regras de erro de sintaxe, o DQS também usa dados de referência e algoritmos avançados para categorizar dados com o uso do nível de confiança.Apart from the adherence to the syntax error rules, DQS also uses reference data and advanced algorithms to categorize data using confidence level. O nível de confiança indica a extensão de certeza do DQS para a correção ou sugestão.The confidence level indicates the extent of certainty of DQS for the correction or suggestion. O nível de confiança é baseado nos valores de limite a seguir:The confidence level is based on the following threshold values:

  • Um valor de3 limite da correção automática acima do qual o DQS irá sugerir e fazer uma alteração, a menos que o administrador de dados a rejeite.An auto-correction threshold value above which DQS will suggest a change and make it unless the data steward rejects it. Você pode especificar o valor de limite de correção automática na guia Configurações Gerais na tela Configuração .You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.For more information, see Configure Threshold Values for Cleansing and Matching.

  • Um valor de limite de sugestão automática abaixo do limite de correção automática, acima do qual o DQS irá sugerir e fazer uma alteração caso o administrador de dados a aprove.An auto-suggestion threshold value, below the auto-correction threshold, above which DQS will suggest a change, and make it if the data steward approves it. Você pode especificar o valor de limite de sugestão automática na guia Configurações Gerais na tela Configuração .You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.For more information, see Configure Threshold Values for Cleansing and Matching.

    Qualquer valor com um nível de confiança debaixo do valor de limite de sugestão automática é deixado como está pelo DQS, a menos que o administrador de dados especifique uma alteração.Any value having a confidence level below the auto-suggestion threshold value is left as is by DQS unless the data steward specifies a change.

Limpeza interativaInteractive Cleansing

Com base no processo de limpeza auxiliada por computador, o DQS fornece ao administrador de dados as informações necessárias para que ele tome uma decisão sobre a alteração dos dados.Based on the computer-assisted cleansing process, DQS provides the data steward with information that they need to make a decision about changing the data. O DQS categoriza os dados sob estas cinco guias:DQS categorizes the data under the following five tabs:

  • Sugerido: valores de domínio para os quais o DQS encontrou sugestões com um nível de confiança superior ao valor de limite de sugestão automática , mas inferior ao valor do limite de correção automática .Suggested: Values for which DQS found suggestions that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value. Você deve revisar esses valores e aprovar ou rejeitar conforme apropriado.You should review these values, and approve or reject as appropriate.

  • Novo: valores válidos para os quais o DQS não tem informações suficientes (sugestão) e, portanto, não podem ser mapeados para nenhuma outra guia. Posteriormente, essa guia também conterá valores que tenham um nível de confiança inferior ao valor de limite de sugestão automática , porém alto o suficiente para ser marcado como válido.New: Valid values for which DQS does not have enough information (suggestion), and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

  • Inválido: valores que foram marcados como inválidos no domínio na base de dados de conhecimento ou os valores que falharam em uma regra de domínio ou em dados de referência.Invalid: Values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule or reference data. Esta guia também conterá valores rejeitados pelo usuário em quaisquer das outras quatro guias durante o processo de limpeza interativo.This tab will also contain values that are rejected by the user in any of the other four tabs during the interactive cleansing process.

  • Corrigido: valores corrigidos pelo DQS durante o processo de limpeza automatizado uma vez que o DQS localizou uma correção para o valor com um nível de confiança acima do valor do limite de correção automática .Corrected: Values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value. Esta guia também conterá valores para os quais o usuário especificou um valor correto na coluna Corrigir para durante a limpeza interativa e então aprovou clicando no botão de opção na coluna Aprovar em quaisquer das outras quatro guias.This tab will also contain values for which the user specified a correct value in the Correct To column during interactive cleansing, and then approved by clicking the radio button in the Approve column in any of the other four tabs.

  • Correto: valores avaliados como corretos.Correct: Values that were found correct. Por exemplo, o valor correspondeu a um valor de domínio.For example, the value matched a domain value. Se preciso for, você poderá anular a limpeza do DQS ao rejeitar valores desta guia ou especificando uma palavra alternativa na coluna Corrigir para e depois clicando no botão de opção da coluna Aceitar .If required, you can override DQS cleansing by rejecting values under this tab, or by specifying an alternate word in the Correct To column, and then clicking the radio button in the Accept column. Essa guia também contém os valores que foram aprovados pelo usuário durante a limpeza interativa clicando no botão de opção na coluna Aprovar nas guias Novo ou Inválido .This tab will also contain values that were approved by the user during interactive cleansing by clicking the radio button in the Approve column in the New or Invalid tab.

Observação

Nas guias Sugerido, Corrigidoe Correto , o DQS exibe o valor principal para um domínio, se aplicável, no coluna Corrigir para em relação ao respectivo valor de domínio.In the Suggested, Corrected, and Correct tabs, DQS displays the leading value for a domain, if applicable, in the Correct To column against the respective domain value.

O administrador de dados usa o cliente do Cliente Data QualityData Quality Client para ver as alterações propostas pelo DQS e decidir se elas devem ser implementadas ou não.The data steward uses Cliente Data QualityData Quality Client to see the changes that DQS has proposed and to decide whether to implement them or not. Ele pode verificar se os valores designados como corretos pelo DQS estão realmente corretos.He or she can verify that values DQS has designated as correct are in fact correct. Ele pode verificar se as alterações já feitas pelo DQS, com um alto nível de confiança, deveriam ter sido feitas.He or she can verify that changes already made by DQS, with a high confidence level, should be made. Ele pode decidir se deve aprovar as alterações sugeridas automaticamente.He or she can decide whether to approve auto-suggested changes. E pode examinar os valores que não foram alterados, no caso de desejar fazer uma alteração não localizada pelo processo assistido pelo computador.And he or she can review values that have not been changed, just in case they want to make a change not found by the computer-assisted process.

O DQS mesclará todas as alterações feitas pelo administrador de dados com os resultados da limpeza de dados auxiliada por computador.DQS will merge any changes that the data steward has made with the results of the computer-assisted data cleansing. Essas alterações ficarão no projeto, mas não serão adicionadas à base de conhecimento.These changes will stay with the project; however, they will not be added to the knowledge base. Durante a limpeza de dados, a base de conhecimento associada é somente leitura.During data cleansing, the associated knowledge base is read-only.

Quando o processo de limpeza de dados for concluído, você poderá optar por exportar os dados processados para uma nova tabela no banco de dados do SQL Server, para um arquivo .csv ou para um arquivo do Excel.When the data cleansing process has completed, you can choose to export the processed data to a new table in a SQL Server database, .csv file, or Excel file. Os dados de origem nos quais a limpeza é executada são mantidos em seu estado original.The source data on which cleansing is performed is maintained in its original state. O administrador de dados pode usar os dados limpos separados para corrigir os dados de origem reais.The data steward can use the separate cleansed data to correct the actual source data.

A ilustração a seguir mostra como a limpeza de dados é feita usando o aplicativo Cliente Data QualityData Quality Client :The following illustration displays how data cleansing is done using the Cliente Data QualityData Quality Client application:

Limpeza de dados no Data Quality ClientData Cleansing in Data Quality Client

Correção de valor principalLeading Value Correction

A correção do valor principal se aplica a valores de domínio que possuem sinônimos, e o usuário deseja usar um dos valores de sinônimo como o valor principal, em vez de outros para a representação consistente do valor.Leading value correction applies to domain values that have synonyms, and the user wants to use one of the synonym values as the leading value instead of others for the consistent representation of the value. Por exemplo, "Rio de Janeiro", "RJ" e "cidade maravilhosa" são sinônimos e o usuário deseja usar "Rio de Janeiro" como o valor principal em vez de "RJ" e "Cidade Maravilhosa".For example, “New York”, “NYC”, and “big apple” are synonyms, and the user wants to use “New York” as the leading value instead of “NYC” and “Big Apple”. O DQS oferece suporte à correção do valor principal durante o processo de limpeza para ajudar você a padronizar seus dados.DQS supports leading value correction during the cleansing process to help you standardize your data. A correção de valor principal só será feita se o domínio tiver sido habilitado para o mesmo ao ser criado.The leading value correction is done only if the domain was enabled for the same when it was created. Por padrão, todos os domínios são habilitados para a correção de valor principal, a menos que você tenha desmarcado a caixa de seleção Usar Valores Principais durante a criação de um domínio.By default, all domains are enabled for leading value correction unless you cleared the Use Leading Values check box while creating a domain. Para obter mais informações sobre essa caixa de seleção, consulte Set Domain Properties.For more information about this check box, see Set Domain Properties.

Padronizar dados limposStandardize Cleansed Data

É possível optar por exportar os dados limpos no formato padronizado com base no formato de saída definido para domínios.You can choose whether to export the cleansed data in the standardized format based on the output format defined for domains. Durante a criação de um domínio, você poderá selecionar a formatação que será aplicada quando forem gerados os valores de dados no domínio.While creating a domain, you can select the formatting that will be applied when the data values in the domain are output. Para obter mais informações sobre como especificar formatos de saída de um domínio, consulte a lista Saída de Formato para em Set Domain Properties.For more information about specifying output formats for a domain, see the Format Output to list in Set Domain Properties.

Durante a exportação dos dados limpos na página Exportar no assistente de projeto de qualidade de dados de limpeza, especifique se deseja que os dados limpos sejam exportados no formato padronizado marcando a caixa de seleção Padronizar Saída .While exporting the cleansed data on the Export page in the cleansing data quality project wizard, you specify whether you want the cleansed data to be exported in the standardized format by selecting the Standardize Output check box. Por padrão, os dados limpos são exportados no formato unificado, ou seja, a caixa de seleção está marcada.By default, the cleansed data is exported in the standardized format, that is, the check box is selected. Para obter mais informações sobre como exportar os dados limpos, consulte Limpar dados usando o conhecimento do DQS (interno).For more information about exporting the cleansed data, see Cleanse Data Using DQS (Internal) Knowledge.

Descrição da tarefaTask Description TópicoTopic
Descreve como configurar valores de limites para a atividade de limpeza.Describes how to configure threshold values for the cleansing activity. Configure Threshold Values for Cleansing and MatchingConfigure Threshold Values for Cleansing and Matching
Descreve como limpar dados usando conhecimento criado no DQS.Describes how to cleanse data using knowledge built in DQS. Limpar dados usando o conhecimento (interno) do DQSCleanse Data Using DQS (Internal) Knowledge
Descreve como limpar dados usando conhecimento do serviço de dados de referência.Describes how to cleanse data using knowledge from reference data service. Limpar dados usando o conhecimento (externo) dos dados de referênciaCleanse Data Using Reference Data (External) Knowledge
Descreve como limpar um domínio composto.Describes how to cleanse a composite domain. Limpar dados em um domínio de composiçãoCleanse Data in a Composite Domain

Consulte tambémSee Also

Projetos de qualidade de dados (DQS) Data Quality Projects (DQS)
Correspondência de dadosData Matching