Vad är klustring?

Slutförd

Klustring är en form av oövervakad maskininlärning där observationer grupperas i kluster baserat på likheter i deras datavärden eller funktioner. Den här typen av maskininlärning anses vara oövervakad eftersom den inte använder tidigare kända etikettvärden för att träna en modell. I en klustringsmodell är etiketten det kluster som observationen tilldelas till, endast baserat på dess funktioner.

Anta till exempel att en botaniker observerar ett urval av blommor och registrerar antalet kronblad och blad på varje blomma.

Illustration showing a collection of flowers with different numbers of petals and leaves.

Det kan vara användbart att gruppera dessa blommor i kluster baserat på likheter mellan deras funktioner.

Det finns många sätt att fastställa den här grupperingen. Till exempel, om de flesta blommor har samma antal blad, kan de grupperas i blommor med många vs få kronblad. Alternativt, om både kronblad och lövantal varierar avsevärt kan det finnas ett mönster att upptäcka, till exempel blommor med många blad som också har många kronblad. Målet med klustringsalgoritmen är att hitta det optimala sättet att dela upp datamängden i grupper. Vad optimalt innebär beror på både den algoritm som används och den datauppsättning som tillhandahålls.

Även om det här blomexemplet är enkelt att kategorisera med bara några få exempel, när datamängden växer till tusentals exempel eller till fler än två funktioner, blir klustringsalgoritmer användbara för att snabbt sortera ut en datamängd i grupper.