Plug-in diffpatterns_text

Articolo
01/23/2024

Confronta due set di dati di valori stringa e trova modelli di testo che caratterizzano le differenze tra i due set di dati. Il plug-in viene richiamato con l'operatore evaluate .

Restituisce diffpatterns_text un set di modelli di testo che acquisisce parti diverse dei dati nei due set. Ad esempio, un criterio che acquisisce una percentuale elevata delle righe quando la condizione è true e una percentuale bassa delle righe quando la condizione è false. I modelli vengono creati da token consecutivi separati da spazi vuoti, con un token dalla colonna di testo o da un * carattere jolly. Ogni modello è rappresentato da una riga nei risultati.

Sintassi

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Altre informazioni sulle convenzioni di sintassi.

Parametri

Nome	Tipo	Obbligatoria	Descrizione
Colonna Testo	`string`	✔️	Colonna di testo da analizzare.
BooleanCondition	`string`	✔️	Espressione che restituisce un valore booleano. L'algoritmo suddivide la query nei due set di dati da confrontare in base a questa espressione.
MinTokens	`int`		Valore intero compreso tra 0 e 200 che rappresenta il numero minimo di token non con caratteri jolly per modello di risultato. Il valore predefinito è 1.
Soglia	`decimal`		Valore decimale compreso tra 0,015 e 1 che imposta la differenza minima tra i due set. Il valore predefinito è 0,05. Vedere diffpatterns.
MaxTokens	`int`		Un valore intero compreso tra 0 e 20 che imposta il numero massimo di token per modello di risultato, specificando un limite inferiore diminuisce il runtime di query.

Restituisce

Il risultato di diffpatterns_text restituisce le colonne seguenti:

Count_of_True: numero di righe corrispondenti al criterio quando la condizione è true.
Count_of_False: numero di righe corrispondenti al criterio quando la condizione è false.
Percent_of_True: percentuale di righe corrispondenti al modello delle righe quando la condizione è true.
Percent_of_False: percentuale di righe corrispondenti al modello delle righe quando la condizione è false.
Pattern: modello di testo contenente token dalla stringa di testo e '*' per i caratteri jolly.

Nota

I modelli non sono necessariamente distinti e potrebbero non fornire una copertura completa del set di dati. I modelli possono essere sovrapposti e alcune righe potrebbero non corrispondere a alcun criterio.

Esempio

L'esempio seguente usa i dati della tabella StormEvents nel cluster della Guida. Per accedere a questi dati, accedere a https://dataexplorer.azure.com/clusters/help/databases/Samples. Nel menu a sinistra passare alla Guida>Esempi>tabelle>Storm_Events.

Eseguire la query

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Output

Count_of_True	Count_of_False	Percent_of_True	Percent_of_False	Modello
11	0	6.29	0	Venti che si spostano a nord-ovest in * sveglia * una superficie di troughe ha portato forte effetto lago in discesa * Lake Superior da
9	0	5.14	0	L'alta pressione canadese si è stabilizzata * regione * ha prodotto le temperature più fredde a partire da febbraio * 2006. Durate * temperature di congelamento
0	34	0	6.24	* * * * * * West Tennessee,
0	42	0	7.71	* * * * * * causato * * * * in colorado occidentale. *
0	45	0	8.26	* * al di sotto della normale *
0	110	0	20.18	Al di sotto del normale *

Share via