Compartilhar via


Plug-in diffpatterns_text

Compara dois conjuntos de dados de valores de cadeia de caracteres e localiza padrões de texto que caracterizam diferenças entre os dois conjuntos de dados. O plug-in é invocado com o evaluate operador .

O diffpatterns_text retorna um conjunto de padrões de texto que capturam diferentes partes dos dados nos dois conjuntos. Por exemplo, um padrão capturando uma grande porcentagem das linhas quando a condição é true e uma porcentagem baixa das linhas quando a condição é false. Os padrões são criados a partir de tokens consecutivos separados por espaço em branco, com um token da coluna de texto ou um * que representa um curinga. Cada padrão é representado por uma linha nos resultados.

Syntax

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Saiba mais sobre as convenções de sintaxe.

Parâmetros

Nome Tipo Obrigatório Descrição
TextColumn string ✔️ A coluna de texto a ser analisada.
BooleanCondition string ✔️ Uma expressão que é avaliada como um valor booliano. O algoritmo divide a consulta nos dois conjuntos de dados a serem comparados com base nessa expressão.
MinTokens int Um valor inteiro entre 0 e 200 que representa o número mínimo de tokens não curinga por padrão de resultado. O padrão é 1.
Limite decimal Um valor decimal entre 0,015 e 1 que define a diferença de taxa de padrão mínima entre os dois conjuntos. O padrão é 0,05. Consulte diffpatterns.
MaxTokens int Um valor inteiro entre 0 e 20 que define o número máximo de tokens por padrão de resultado, especificando um limite inferior diminui o runtime de consulta.

Retornos

O resultado de diffpatterns_text retorna as seguintes colunas:

  • Count_of_True: o número de linhas que correspondem ao padrão quando a condição é true.
  • Count_of_False: o número de linhas que correspondem ao padrão quando a condição é false.
  • Percent_of_True: o percentual de linhas que correspondem ao padrão das linhas quando a condição é true.
  • Percent_of_False: o percentual de linhas que correspondem ao padrão das linhas quando a condição é false.
  • Padrão: o padrão de texto que contém tokens da cadeia de caracteres de texto e '*' para curingas.

Observação

Os padrões não são necessariamente distintos e podem não fornecer cobertura completa do conjunto de dados. Os padrões podem estar sobrepostos e algumas linhas podem não corresponder a nenhum padrão.

Exemplo

O exemplo a seguir usa dados da tabela StormEvents no cluster de ajuda. Para acessar esses dados, entre em https://dataexplorer.azure.com/clusters/help/databases/Samples. No menu à esquerda, navegue para ajudar> asTabelas> deExemplos>Storm_Events.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Saída

Count_of_True Count_of_False Percent_of_True Percent_of_False Padrão
11 0 6.29 0 Ventos que se deslocam para noroeste em * wake * um cocho de superfície trouxe forte efeito lago queda de neve downwind * Lago Superior de
9 0 5.14 0 A alta pressão canadense se instalou * * região * produziu as temperaturas mais frias desde fevereiro * 2006. Durações * temperaturas congelantes
0 34 0 6.24 * * * * * * * * * * West Tennessee,
0 42 0 7.71 * * * * * * * causou * * * * * * * * em todo o oeste do Colorado. *
0 45 0 8.26 * * abaixo do normal *
0 110 0 20.18 Abaixo do normal *