autocluster eklentisi

autocluster verilerdeki ayrık özniteliklerin (boyutlar) ortak desenlerini bulur. Ardından ister 100 ister 100.000 satır olsun, özgün sorgunun sonuçlarını birkaç desene düşürür. Eklenti, hataların (özel durumlar veya kilitlenmeler gibi) analiz edilmesine yardımcı olmak için geliştirilmiştir, ancak filtrelenmiş herhangi bir veri kümesinde çalışabilir. Eklenti işleciyle birlikte çağrılır evaluate .

Not

autocluster büyük ölçüde şu makaledeki Seed-Expand algoritmasını temel alır: Ayrık Öznitelikleri Kullanan Telemetri Veri Madenciliği Algoritmaları.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Söz dizimi kuralları hakkında daha fazla bilgi edinin.

Parametreler

Parametreler söz diziminde belirtildiği gibi sıralanmalıdır. Varsayılan değerin kullanılması gerektiğini belirtmek için dize tilde değerini ~girin. Daha fazla bilgi için bkz . Örnekler.

Ad Tür Gerekli Açıklama
T string ✔️ Giriş tablosal ifadesi.
SizeWeight double Genel (yüksek kapsam) ile bilgilendirici (birçok paylaşılan) değer arasındaki dengeyi denetleen 0 ile 1 arasında bir çift. Bu değerin artırılması genellikle kapsamı genişletirken desen miktarını azaltır. Buna karşılık, bu değerin azaltılması, artan paylaşılan değerler ve daha küçük bir yüzde kapsamı ile karakterize edilen daha belirgin desenler oluşturur. Varsayılan değer: 0.5. Formül, ve ağırlıkları olan ağırlıklı geometrik bir ortalamadır SizeWeight1-SizeWeight.
WeightColumn string Girişteki her satırı belirtilen ağırlığa göre dikkate alır. Her satırın varsayılan ağırlığı vardır 1. Bağımsız değişken, sayısal bir tamsayı sütununun adı olmalıdır. Ağırlık sütununun yaygın kullanımlarından biri, her satıra zaten eklenmiş olan verilerin örneklemesini, demetini veya toplamasını dikkate almaktır.
NumSeeds int İlk yerel arama noktalarının sayısını belirler. Tohum sayısının ayarlanması, veri yapısına göre sonuç miktarını veya kalitesini etkiler. Artan tohumlar sonuçları geliştirebilir ancak daha yavaş bir sorgu dezavantajı elde edebilir. Beşin altında azalma göz ardı edilebilir iyileştirmeler sağlarken, 50'nin üzerine çıkarılma seyrinin artması nadiren daha fazla desen oluşturur. Varsayılan değer: 25.
CustomWildcard string Sonuçlar tablosundaki belirli bir tür için joker karakter değerini ayarlayan ve bu sütunda kısıtlama olmadığını belirten bir tür sabit değeri. Varsayılan değer, boş bir dizeyi temsil eden değeridir null. Varsayılan değer verilerde iyi bir değerse, gibi *farklı bir joker karakter değeri kullanılmalıdır. Birden çok özel joker karakteri art arda ekleyerek ekleyebilirsiniz.

Döndürülenler

Eklenti autocluster genellikle küçük bir desen kümesi döndürür. Desenler, birden çok ayrı öznitelik arasında paylaşılan ortak değerlerle verilerin bölümlerini yakalar. Sonuçlardaki her desen bir satırla temsil edilir.

İlk sütun segment kimliğidir. Sonraki iki sütun, desen tarafından yakalanan özgün sorgunun satır sayısı ve yüzdesidir. Kalan sütunlar özgün sorgudandır. Değerleri sütundaki belirli bir değer veya değişken değerler anlamına gelen joker değerdir (varsayılan olarak nulldur).

Desenler ayrı değildir, örtüşüyor olabilir ve genellikle tüm özgün satırları kapsamaz. Bazı satırlar herhangi bir desenin altına düşmeyebilir.

İpucu

Verileri yalnızca ilgilendiğiniz gibi olacak şekilde azaltmak için giriş kanalında where ve project kullanın.

İlginç bir satır bulduğunuzda, filtrenize belirli değerlerini ekleyerek daha fazla detaya gitmek isteyebilirsiniz where .

Örnekler

Değerlendirmeyi kullanma

T | evaluate autocluster()

Otomatik kümeyi kullanma

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Çıkış

SegmentId Count Yüzde Durum Olay türü Hasar
0 2278 38.7 Dolu NO
1 512 8.7 Fırtına Rüzgarı YES
2 898 15.3 TEXAS

Özel joker karakterler kullanma

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Çıkış

SegmentId Count Yüzde Durum Olay türü Hasar
0 2278 38.7 * Dolu NO
1 512 8.7 * Fırtına Rüzgarı YES
2 898 15.3 TEXAS * *