Utvärdera olika typer av klustring

Slutförd

Träna en klustermodell

Det finns flera algoritmer som du kan använda för klustring. En av de vanligaste algoritmerna är K-Means-klustring som i sin enklaste form består av följande steg:

  1. Funktionsvärdena är vektoriserade för att definiera n-dimensionella koordinater (där n är antalet funktioner). I blomexemplet har vi två funktioner: antal kronblad och antal blad. Funktionsvektorn har därför två koordinater som vi kan använda för att konceptuellt rita datapunkterna i tvådimensionellt utrymme.
  2. Du bestämmer hur många kluster du vill använda för att gruppera blommorna – anropa det här värdet k. Om du till exempel vill skapa tre kluster använder du ett k-värde på 3. Sedan ritas k-punkter vid slumpmässiga koordinater. Dessa punkter blir centrumpunkterna för varje kluster, så de kallas centroider.
  3. Varje datapunkt (i det här fallet en blomma) tilldelas till sin närmaste centroid.
  4. Varje centroid flyttas till mitten av de tilldelade datapunkterna baserat på medelvärdet mellan punkterna.
  5. När centroiden har flyttats kan datapunkterna nu vara närmare en annan centroid, så datapunkterna omtilldelas till kluster baserat på den nya närmaste centroiden.
  6. Centroidförflyttnings- och klusterförflyttningsstegen upprepas tills klustren blir stabila eller ett fördefinierat maximalt antal iterationer uppnås.

Följande animering visar den här processen:

Illustration showing a collection of flowers with different numbers of petals and leaves.

Hierarkisk klustring

Hierarkisk klustring är en annan typ av klustringsalgoritm där själva klustren tillhör större grupper, som tillhör ännu större grupper och så vidare. Resultatet är att datapunkter kan vara kluster med olika precisionsgrader: med ett stort antal mycket små och exakta grupper eller ett litet antal större grupper.

Om vi till exempel tillämpar klustring på ordens betydelser kan vi få en grupp som innehåller adjektiv som är specifika för känslor ("arg", "glad" och så vidare). Den här gruppen tillhör en grupp som innehåller alla människorelaterade adjektiv ("glada", "stiliga", "unga", som tillhör en ännu högre grupp som innehåller alla adjektiv ("glada", "gröna", "snygga", "hårda" och så vidare).

Illustration showing hierarchical clustering.

Hierarkisk klustring är användbar för att inte bara dela upp data i grupper, utan även för att förstå relationerna mellan dessa grupper. En stor fördel med hierarkisk klustring är att det inte kräver att antalet kluster definieras i förväg. Och ibland kan det ge mer tolkningsbara resultat än icke-hierarkiska metoder. De största nackdelarna är att dessa metoder kan ta längre tid att beräkna än enklare metoder, och ibland är de inte lämpliga för stora datamängder.