Plug-in diffpatterns_textdiffpatterns_text plugin

Confronta due set di dati di valori stringa e trova i modelli di testo che caratterizzano le differenze tra i due set di dati.Compares two data sets of string values and finds text patterns that characterize differences between the two data sets.

T | evaluate diffpatterns_text(TextColumn, BooleanCondition)

diffpatterns_textRestituisce un set di modelli di testo che acquisiscono parti diverse dei dati nei due set, ovvero un modello che acquisisce una percentuale elevata delle righe quando la condizione è true e una percentuale bassa delle righe quando la condizione è false .The diffpatterns_text returns a set of text patterns that capture different portions of the data in the two sets (i.e. a pattern capturing a large percentage of the rows when the condition is true and low percentage of the rows when the condition is false). I modelli sono compilati da token consecutivi (separati da spazi vuoti), con un token della colonna di testo o un oggetto * che rappresenta un carattere jolly.The patterns are built from consecutive tokens (separated by white space), with a token from the text column or a * representing a wildcard. Ogni modello è rappresentato da una riga nei risultati.Each pattern is represented by a row in the results.

SintassiSyntax

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold, MaxTokens])T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

ArgomentiArguments

Argomenti obbligatoriRequired arguments

  • TextColumn- column_nameTextColumn - column_name

    La colonna di testo da analizzare deve essere di tipo String.The text column to analyze, must be of type string.

  • BooleanCondition- espressione booleanaBooleanCondition - Boolean expression

    Definisce la modalità di generazione dei due subset di record da confrontare con la tabella di input.Defines how to generate the two record subsets to compare to the input table. L'algoritmo suddivide la query in due set di dati, "true" e "false" in base alla condizione, quindi analizza le differenze (testo) tra di essi.The algorithm splits the query into two data sets, “True” and “False” according to the condition, then analyzes the (text) differences between them.

Argomenti facoltativiOptional arguments

Tutti gli argomenti sono facoltativi, ma devono essere ordinati come riportato di seguito.All other arguments are optional, but they must be ordered as below.

  • MinTokens-0 < int < 200 [valore predefinito: 1]MinTokens - 0 < int < 200 [default: 1]

    Imposta il numero minimo di token non jolly per ogni modello di risultato.Sets the minimal number of non-wildcard tokens per result pattern.

  • Soglia-0,015 < double < 1 [valore predefinito: 0,05]Threshold - 0.015 < double < 1 [default: 0.05]

    Imposta la differenza del modello minimo (rapporto) tra i due set (vedere diffpatterns).Sets the minimal pattern (ratio) difference between the two sets (see diffpatterns).

  • MaxTokens-0 < int [valore predefinito: 20]MaxTokens - 0 < int [default: 20]

    Imposta il numero massimo di token (dall'inizio) per ogni modello di risultato. Se si specifica un limite inferiore, il runtime della query viene ridotto.Sets the maximal number of tokens (from the beginning) per result pattern, specifying a lower limit decreases the query runtime.

RestituisceReturns

Il risultato di diffpatterns_text restituisce le colonne seguenti:The result of diffpatterns_text returns the following columns:

  • Count_of_True: numero di righe che corrispondono al criterio quando la condizione è true .Count_of_True: The number of rows matching the pattern when the condition is true.
  • Count_of_False: numero di righe che corrispondono al criterio quando la condizione è false .Count_of_False: The number of rows matching the pattern when the condition is false.
  • Percent_of_True: la percentuale di righe che corrisponde al modello delle righe quando la condizione è true .Percent_of_True: The percentage of rows matching the pattern from the rows when the condition is true.
  • Percent_of_False: la percentuale di righe che corrisponde al modello delle righe quando la condizione è false .Percent_of_False: The percentage of rows matching the pattern from the rows when the condition is false.
  • Pattern: il modello di testo contenente i token dalla stringa di testo è * ' per i caratteri jolly.Pattern: The text pattern containing tokens from the text string and '*' for wildcards.

Nota

I modelli non sono necessariamente distinti e potrebbero non fornire una copertura completa del set di dati.The patterns aren't necessarily distinct and may not provide full coverage of the data set. È possibile che i modelli siano sovrapposti e che alcune righe non corrispondano a alcuno schema.The patterns may be overlapping and some rows may not match any pattern.

EsempioExample

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Count_of_TrueCount_of_True Count_of_FalseCount_of_False Percent_of_TruePercent_of_True Percent_of_FalsePercent_of_False ModelloPattern
1111 00 6,296.29 00 Venti spostando l'area nord-ovest in * riattivazione * una superficie che ha prodotto un effetto Lago di nevicato al di sotto del lago superioreWinds shifting northwest in * wake * a surface trough brought heavy lake effect snowfall downwind * Lake Superior from
99 00 5,145.14 00 La * * regione * ad alta pressione canadese ha prodotto le temperature più fredde da febbraio * 2006.Canadian high pressure settled * * region * produced the coldest temperatures since February * 2006. Durate * temperature di bloccoDurations * freezing temperatures
00 3434 00 6,246.24 * * * * * * * * * * * * * * * * * * * * * * * West Tennessee,* * * * * * * * * * * * * * * * * * West Tennessee,
00 4242 00 7,717.71 * * * * * * * * * * * * * * * * * * * * * * * * * *.* * * * * * caused * * * * * * * * across western Colorado. *
00 4545 00 8,268.26 * * inferiore al normale ** * below normal *
00 110110 00 20,1820.18 Inferiore al normale *Below normal *