Plug-in autocluster

autocluster trova modelli comuni di attributi discreti (dimensioni) nei dati. Riduce quindi i risultati della query originale, ovvero 100 o 100.000 righe, a alcuni modelli. Il plug-in è stato sviluppato per analizzare gli errori ,ad esempio eccezioni o arresti anomali, ma può potenzialmente funzionare su qualsiasi set di dati filtrato. Il plug-in viene richiamato con l'operatore evaluate .

Nota

autocluster si basa in gran parte sull'algoritmo Seed-Expand del documento seguente: algoritmi per il data mining di telemetria usando attributi discreti.

Sintassi

T|evaluateautocluster([SizeWeight [WeightColumn [NumSeeds [,,,CustomWildcard [, ... ]]]]])

Altre informazioni sulle convenzioni di sintassi.

Parametri

I parametri devono essere ordinati come specificato nella sintassi. Per indicare che il valore predefinito deve essere usato, inserire il valore ~di tilde stringa . Per altre informazioni, vedere Esempi.

Nome Tipo Obbligatoria Descrizione
T string ✔️ Espressione tabulare di input.
SizeWeight double Un doppio tra 0 e 1 che controlla l'equilibrio tra valori generici (copertura elevata) e informativo (molti valori condivisi). L'aumento di questo valore riduce in genere la quantità di modelli durante l'espansione della copertura. Al contrario, la riduzione di questo valore genera modelli più specifici caratterizzati da valori condivisi più elevati e una copertura percentuale più piccola. Il valore predefinito è 0.5. La formula è una media geometrica ponderata con pesi SizeWeight e 1-SizeWeight.
WeightColumn string Considera ogni riga nell'input in base al peso specificato. Ogni riga ha un peso predefinito di 1. L'argomento deve essere un nome di una colonna integer numerica. Un utilizzo comune di una colonna di peso consiste nell'tenere conto del campionamento o del bucket o dell'aggregazione dei dati già incorporati in ogni riga.
NumSeeds int Determina il numero di punti di ricerca locali iniziali. La regolazione del numero di semi influisce sulla quantità di risultati o sulla qualità in base alla struttura dei dati. L'aumento dei semi può migliorare i risultati, ma con un compromesso di query più lento. Riducendo al di sotto di cinque i rendimenti trascurabili, mentre aumentano più di 50 raramente generano più modelli. Il valore predefinito è 25.
CustomWildcard string Valore letterale di tipo che imposta il valore jolly per un tipo specifico nella tabella dei risultati, che indica nessuna restrizione su questa colonna. Il valore predefinito è null, che rappresenta una stringa vuota. Se il valore predefinito è un buon valore nei dati, deve essere usato un valore jolly diverso, ad esempio *. È possibile includere più caratteri jolly personalizzati aggiungendoli consecutivamente.

Restituisce

Il autocluster plug-in restituisce in genere un piccolo set di modelli. I modelli acquisiscono parti dei dati con valori comuni condivisi tra più attributi discreti. Ogni modello nei risultati è rappresentato da una riga.

La prima colonna è l'ID segmento. Le due colonne successive indicano il numero e la percentuale di righe esterne alla query originale acquisite dal modello. Le colonne rimanenti provengono dalla query originale. Il valore è un valore specifico della colonna o un valore jolly (che sono per impostazione predefinita Null) che significa valori di variabile.

I modelli non sono distinti, possono essere sovrapposti e in genere non coprono tutte le righe originali. È possibile che alcune righe non rientrino in alcun modello.

Suggerimento

Usare dove e progetto nella pipe di input per ridurre i dati a ciò che si è interessati.

Quando si trova una riga interessante, è possibile che si voglia visualizzarne i dettagli, aggiungendo i rispettivi valori specifici al filtro where .

Esempio

Uso della valutazione

T | evaluate autocluster()

Uso del cluster automatico

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId Conteggio Percentuale State EventType Danni
0 2278 38.7 Grandine NO
1 512 8.7 Vento di tempesta YES
2 898 15.3 TEXAS

Uso di caratteri jolly personalizzati

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId Conteggio Percentuale State EventType Danni
0 2278 38.7 * Grandine NO
1 512 8.7 * Vento di tempesta YES
2 898 15.3 TEXAS * *