Explorando o modelo de call center (Tutorial de mineração de dados intermediário)

Agora que você criou o modelo exploratório, será possível usá-lo para saber mais sobre os dados utilizando as ferramentas a seguir fornecidas no Business Intelligence Development Studio.

  • Visualizador de Rede Neural da Microsoft**:** esse visualizador está disponível na guia Visualizador do Modelo de Mineração do Designer de Mineração de Dados e foi criado para ajudar a testar as interações nos dados.

  • Visualizador de Árvore de Conteúdo Genérica da Microsoft**:** esse visualizador padrão fornece detalhes minuciosos sobre as estatísticas e os padrões descobertos pelo algoritmo durante a geração do modelo.

  • Designer de Exibição da Fonte de Dados**:** esse visualizador fornece tabelas, gráficos, bem como tabelas e gráficos dinâmicos que ajudam a explorar os dados de origem. Voltar aos dados de origem pode ser muito útil para entender as tendências realçadas pelo modelo.

Visualizador de Rede Neural da Microsoft

O visualizador tem três painéis: Entrada, Saída e Variáveis.

Usando o painel Saída, você pode selecionar valores diferentes para o atributo previsível ou variável dependente. Se o modelo contiver vários atributos previsíveis, você poderá selecionar o atributo na lista Atributo de Saída.

O painel Variáveis compara os dois resultados escolhidos em termos de atributos de colaboração ou variáveis. As barras coloridas representam visualmente com que intensidade a variável afeta os resultados de destino. Você também pode exibir pontuações de comparação de precisão para as variáveis. Uma pontuação de comparação de precisão é calculada de modo diferente de acordo com o tipo de modelo de mineração utilizado, mas geralmente informa o aperfeiçoamento no modelo durante o uso desse atributo para previsão.

O painel Entrada lhe permite adicionar influenciadores ao modelo para testar vários cenários hipotéticos.

Usando o painel Saída

Nesse modelo inicial, você está interessado em verificar como vários fatores afetam a classificação do serviço. Para fazer isso, selecione Service Grade na lista de atributos de saída e compare os diferentes níveis de serviço selecionando intervalos nas listas suspensas para Valor 1 e Valor 2.

Para comparar as classificações de serviço mais baixa e mais alta

  1. Para Valor 1, selecione o intervalo com os valores mais baixos. Por exemplo, um intervalo como 0-0-0.7 representa as taxas de abandono mais baixas e, portanto, o melhor nível de serviço.

    ObservaçãoObservação

    Os valores exatos nesse intervalo podem variar de acordo com a configuração do modelo.

  2. Para Valor 2, selecione o intervalo com os valores mais altos. Por exemplo, um intervalo com valores como >=0.12 representa as taxas de abandono mais altas e, portanto, a pior classificação de serviço.

    Os conteúdos do painel Variáveis são atualizados para comparar os atributos que colaboram para os valores resultantes. Assim, a coluna esquerda mostra os atributos associados à melhor classificação de serviço, e a coluna direita mostra o atributo associado à pior classificação do serviço.

Usando o painel Variáveis

Depois de configurar os resultados que você deseja comparar usando o painel Saída, você pode usar a lista Variáveis para consultar como cada variável contribui para o resultado. Neste modelo, os três fatores principais que diferenciam as classificações de serviço mais altas e mais baixas são Tempo Médio por Emissão, Ordens e Dia da Semana. O painel Variáveis também fornece estatísticas detalhadas sobre a importância de cada que variável participante.

Para exibir e copiar a probabilidade e as pontuações de comparação de precisão para um atributo

  1. No painel Variáveis, coloque o mouse sobre a barra colorida na primeira linha.

    Essa barra colorida mostra com que intensidade o Tempo Médio por Emissão colabora para a classificação do serviço. A dica de ferramenta mostra uma pontuação geral, as probabilidades e as pontuações de comparação de precisão para cada combinação de uma variável e um resultado de destino.

  2. No painel Variáveis, clique com o botão direito do mouse em qualquer barra colorida e selecione Copiar.

  3. Em uma planilha do Excel, clique com o botão direito do mouse em qualquer célula e selecione Colar.

    O relatório é colado como uma tabela HTML e mostra apenas as pontuações para cada barra.

  4. Em outra planilha do Excel, clique com o botão direito do mouse em qualquer célula e selecione Colar Especial.

    O relatório é colado como formato de texto e inclui as estatísticas relacionadas descritas na próxima seção.

Usando o painel Entrada

Vamos supor que você esteja interessado em examinar o efeito de um determinado fator, como o dia da semana ou o turno, ou número de ordens. Você pode selecionar uma determinada variável usando o painel Entrada, e o painel Variáveis é atualizado automaticamente para comparar os dois grupos selecionados anteriormente de acordo com o valor especificado. Você pode usar essas informações para explorar fatores que poderiam influenciar o resultado designado. Por exemplo, a revisão inicial do modelo indicou que o serviço era melhor na segunda-feira e na terça-feira e tendeu a ser deficiente na quinta-feira; assim, você decide examinar os fatores participantes.

Para examinar o efeito na classificação de serviço alterando os atributos de entrada

  1. No painel Entrada, para atributo, selecione Day Of Week.

  2. Para Valor, selecione Quinta-feira.

    O painel Variáveis é atualizado para mostrar a influência de todas as outras variáveis, dado que o dia da semana é Quinta-feira. Todas as outras seleções permanecem iguais — você ainda está comparando as classificações de serviço mais altas e mais baixas.

  3. Para Valor, altere o dia da semana para Sábado.

    O painel Variáveis é atualizado para mostrar as variáveis que mais influenciam a classificação de serviço nos sábados.

  4. No painel Entrada, clique na próxima linha em branco em Atributo e selecione Shift. Para Valor, selecione AM.

    Uma nova condição de entrada é adicionada à lista. O painel Variáveis é atualizado para mostrar o impacto no modelo de um determinado turno no dia da semana já selecionado.

  5. Continue alterando os valores de Shift e Day Of Week para encontrar correlações interessantes entre a classificação do serviço e essas variáveis.

ObservaçãoObservação

Para desmarcar o painel Entrada de forma que você possa usar atributos diferentes, clique Atualizar conteúdo do visualizador.

Interpretando as estatísticas fornecidas no visualizador

Tempos de espera mais longos constituem um fator importante para uma taxa de abandono alta, indicando uma classificação de serviço mais fraca. Essa pode ser considerada uma conclusão óbvia; no entanto, o modelo de mineração fornece mais alguns dados estatísticos adicionais para ajudar a interpretar essas tendências.

  • Pontuação: valor que indica a importância geral dessa variável para discriminar entre os resultados. Quanto mais alta for a pontuação, maior o efeito da variável no resultado.

  • Probabilidade do valor 1: porcentagem que representa a probabilidade desse valor para esse resultado.

  • Probabilidade do valor 2: porcentagem que representa a probabilidade desse valor para esse resultado.

  • Comparação de Precisão para o Valor 1 e Comparação de Precisão para o Valor 2: pontuações que representam o impacto de usar essa variável em particular para prever os resultados do Valor 1 e do Valor 2. Quanto mais alta for a pontuação, melhor será a variável para prever os resultados.

Como você deveria interpretar essas informações? Por exemplo, digamos que estamos comparando as classificações de serviço mais altas e mais baixas e examinando a influência de Average Time Per Issue. O modelo lista alguns intervalos de valores para Average Time Per Issue, and provides these statistics: Probabilidade de valor 1 é 60,6% e Probabilidade de valor 2 é 8,30%. Isso significa que quando o Average Time Per Issue estava no intervalo de 44-70 minutos, 60,6% dos casos ocorreram no turno com as classificações de serviço mais altas (Valor 1) e 8,30% dos casos ocorreram no turno com as piores classificações de serviço (Valor 2).

Com base nessas informações, é possível estabelecer algumas conclusões. O menor tempo de resposta para chamada (o intervalo de 44-70) influencia fortemente a melhor classificação do serviço (o intervalo 0,00-0,07). A pontuação (92,35) informa que essa variável é muito importante.

Porém, outros fatores têm efeitos mais sutis e mais difíceis de interpretar. Por exemplo, o turno parece influenciar o serviço, mas isso varia de acordo com o dia da semana; além disso, as pontuações de comparação de precisão e as probabilidades relativas indicam que o turno não é um fator importante.

A vantagem de um modelo de rede neural é que ela expõe relações muito sutis que seriam de difícil detecção através de análises padrão. Você deve dedicar algum tempo para explorar o modelo e interpretar as relações segundo seu próprio entendimento do problema comercial.

Voltar ao Início

Visualizador de Árvore de Conteúdo Genérica da Microsoft

Este visualizador pode ser usado para exibir informações ainda mais detalhadas criadas pelo algoritmo durante o processamento do modelo. O Visualizador da Árvore de Conteúdo Genérica da Microsoft representa o modelo de mineração como uma série de nós, sendo que cada nó representa o conhecimento adquirido sobre os dados de treinamento. Esse visualizador pode ser usado com todos os modelos, mas o conteúdo dos nós é diferente de acordo com o tipo de modelo.

Para modelos de rede neural ou de regressão logística, talvez você ache o marginal statistics node particularmente útil. Esse nó contém estatísticas derivadas sobre a distribuição de valores nos dados. Essas informações poderão ser úteis se você quiser obter um resumo dos dados sem escrever muitas consultas T-SQL. O gráfico de valores de compartimento no tópico anterior foi derivado do nó de estatísticas marginais.

Para obter um resumo dos valores de dados do modelo de mineração

  1. No Designer de Mineração de Dados, na guia Visualizador do Modelo de Mineração, selecione <nome do modelo de mineração>.

  2. Na lista Visualizador, selecione Visualizador de Árvore de Conteúdo Genérica da Microsoft.

    A exibição do modelo de mineração é atualizada para mostrar uma hierarquia de nós no painel esquerdo e uma tabela HTML no painel direito.

  3. No painel Legenda de Nó, clique no nó que tem o nome 10000000000000000.

    O nó na extremidade superior em qualquer modelo sempre é o nó raiz do modelo. Em um modelo de rede neural ou de regressão logística, o nó imediatamente sob esse é o nó de estatísticas marginais.

  4. No painel Detalhes do Nó, role para baixo até encontrar a linha NODE_DISTRIBUTION.

  5. Role para pela tabela NODE_DISTRIBUTION para exibir a distribuição de valores conforme calculados pelo algoritmo de rede neural.

    Para usar esses dados em um relatório, selecione e copie as informações para linhas específicas ou use a consulta DMX a seguir para extrair todo o conteúdo do nó.

    SELECT * 
    FROM [Call Center Binned NN].CONTENT
    WHERE NODE_NAME = '10000000000000000'
    

Também é possível usar a hierarquia de nós e os detalhes na tabela NODE_DISTRIBUTION para desviar caminhos individuais na rede neural e exibir estatísticas da camada oculta. Para obter mais informações, consulte Consultando um modelo de rede neural (Analysis Services – Mineração de Dados).

Voltar ao início

Designer de Exibição da Fonte de Dados

Você usa este visualizador ao criar uma estrutura de mineração ou um cubo, mas ele também fornece ferramentas úteis para o melhor entendimento dos dados de origem. Por exemplo, se o modelo encontrou uma tendência que não foi entendida completamente, talvez você queira exibir linhas individuais nos dados subjacentes ou criar resumos ou gráficos que o ajudem a entender as correlações.

Esta seção fornece um exemplo de como usar o designer de Exibição da Fonte de Dados para explorar tendências reveladas pelo modelo, sem a necessidade de copiar dados no Excel ou executar várias consultas T-SQL na fonte de dados.

Neste cenário, você criará alguns gráficos que mostram a correlação entre o tempo de resposta e a classificação de serviço encontrada pelo modelo.

Para criar um gráfico dinâmico que ilustra uma tendência do modelo de mineração

  1. No Gerenciador de Soluções, em Exibições da Fonte de Dados, clique duas vezes em Call Center.dsv.

  2. Na guia Call Center.dsv, clique com o botão direito do mouse na tabela FactCallCenter e selecionar Explorar Dados.

    Uma nova guia será aberta, chamada Explorar FactCallCenter. Essa guia contém quatro seções em guias diferentes: Tabela, Tabela Dinâmica, Gráfico e Gráfico Dinâmico.

  3. Clique na guia Gráfico Dinâmico.

  4. Na Lista de Campos de Gráfico, selecione AverageTimePerIssue e arraste esse item para a área do gráfico, na caixa denominada Soltar Campos de Categoria Aqui.

    Como os dados de origem são provenientes de uma tabela simples, a hierarquia na Lista de Campos de Gráfico contém as mesmas informações que o nível hierárquico e no nível do campo. Entretanto, se você estiver trabalhando com um cubo ou dimensão, a hierarquia poderá conter vários membros. Por exemplo, uma hierarquia Data poderá conter campos como Trimestre, Mês ou Dia. Você pode arrastar toda a hierarquia ou um único membro dela para o gráfico.

  5. Na Lista de Campos de Gráfico, encontre ServiceGrade e arraste esse item para o centro da área do gráfico.

    O gráfico é atualizado para adicionar uma caixa denominada Soma de ServiceGrade na sua parte superior.

  6. Na barra de ferramentas, clique no ícone sigma e selecione Média.

    O título é atualizado para Média de ServiceGrade.

  7. Na Lista de Campos de Gráfico, selecione Shift e arraste esse item para a área do gráfico, na caixa denominada Soltar Campos de Filtro Aqui. Arraste WageType da Lista de Campos de Gráfico e solte esse item ao lado de Shift.

    Agora você pode filtrar por turno para verificar se a tendência é diferente de acordo com o turno, ou se o dia é um feriado ou dia útil.

  8. Selecione AverageTimePerIssue na parte inferior do gráfico e arraste-o de volta para a Lista de Campos de Gráfico.

  9. Na Lista de Campos de Gráfico, selecione AverageTimePerLevelTwoOperators e arraste esse item para a área do gráfico, na caixa denominada Soltar Campos de Categoria Aqui.

    O gráfico é atualizado para mostrar a correlação entre um aumento no número de operadores e a classificação média do serviço. Parece não haver nenhuma relação linear. Você pode continuar testando soltando novos campos no gráfico ou alterando o tipo de gráfico.

No entanto, observe que esses gráficos geralmente podem exibir apenas alguns atributos de cada vez, enquanto o algoritmo de rede neural analisa muitas interações complexas entre várias entradas. Além disso, o modelo de rede neural detecta muitas correlações que são muito sutis para expressão em um gráfico.

Para exportar o diagrama de rede de dependências de um modelo de rede neural, use os Modelos de Mineração de Dados para Visio. Esse suplemento gratuito para Visio 2007 fornece diagramas sofisticados e personalizáveis para modelos de mineração de dados que pode usar para apresentações ou relatórios. Para obter mais informações, consulte Data Mining Add-ins for Office 2007 (em inglês).

Voltar ao início

Histórico de alterações

Conteúdo atualizado

Correção dos nomes dos modelos de mineração em previsões e instruções DDL para que correspondam ao cenário atualizado.

Foi atualizado o modelo para incluir o dia da semana; foi excluída a tabela de estatísticas relacionada ao modelo anterior. Foram descritos efeitos de dia da semana.