Clusters opruimen

Voert een parameter opruiming uit om de optimale instellingen voor een cluster model te bepalen

Categorie: machine learning/trein

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module sweep clustering in azure machine learning Studio (klassiek) kunt gebruiken om een model te trainen met behulp van een parameter opruimen. Een parameter sweep is een manier om de beste Hyper parameters voor een model te vinden, op basis van een reeks gegevens.

De clustering module sweep is speciaal ontworpen voor cluster modellen. U geeft een cluster model op als invoer, samen met een gegevensset. De module doorloopt over een set para meters die u opgeeft, bouwt en test modellen met verschillende para meters totdat het model met de beste set clusters is gevonden. Er wordt automatisch de beste configuratie berekend en vervolgens wordt een model met die configuratie getraind.

Er wordt ook een set metrische gegevens geretourneerd die de geteste modellen beschrijven en een set cluster toewijzingen op basis van het beste model.

Sweep clustering configureren

  1. Voeg de cluster module sweep toe aan uw experiment in Studio (klassiek). U kunt deze module vinden onder machine learningin de categorie trein .

  2. Voeg de cluster module K-betekent en uw trainings gegevensset toe aan het experiment en verbind ze beide met de module sweep clustering .

  3. Configureer de clustering module K-betekent dat een parameter sweep als volgt moet worden gebruikt:

    1. Stel de trainer modus in op het parameter bereik.

    2. Gebruik de opbouw functie bereik (of voer hand matig meerdere waarden in) voor elke para meter om het waardebereik in te stellen dat moet worden herhaald.

    3. Initialisatie voor sweep: Geef op hoe het K-houdt-algoritme de eerste cluster centroids moet vinden. Er zijn meerdere algoritmen voor het wille keurig initialiseren en vervolgens testen van centroids.

      Als uw trainings gegevensset een kolom Label bevat, zelfs met gedeeltelijke waarden, kunt u deze waarden gebruiken voor centroids. Gebruik de optie Label modus toewijzen om aan te geven hoe de label waarden worden gebruikt.

      Tip

      De kolom Label moet als zodanig worden gemarkeerd. Als er een fout optreedt, kunt u de meta gegevens bewerken gebruiken om de kolom met labels te identificeren.

    4. Aantal zaden dat moet worden geveegd: geeft aan hoeveel verschillende wille keurige begin zaden moeten worden geprobeerd wanneer de para meter wordt gesweepeerd.

    5. Kies de metrische waarde die moet worden gebruikt voor het meten van de soort gelijke clusteriteit. Zie het onderwerp K-betekent clustering voor meer informatie.

    6. Herhalingen: Hier geeft u het totale aantal herhalingen op dat het algoritme van de K-out moet uitvoeren. Deze iteraties worden gebruikt om de selectie van het cluster centroids te optimaliseren.

    7. Als u een kolom Label gebruikt voor het initialiseren van de sweep, gebruikt u de optie Label modus toewijzen om op te geven hoe de waarden in de kolom Label moeten worden verwerkt.

      • Ontbrekende waarden vullen: als uw label kolom enkele waarden bevat, gebruikt u deze optie om categorieën te toegerekend op basis van het cluster waaraan het gegevens punt is toegewezen.

      • Overschrijven van dichtstbijzijnde naar Center: genereert label waarden voor alle gegevens punten die aan een cluster zijn toegewezen, met behulp van het label van het punt dat zich het dichtst bij het midden van het cluster bevindt.

      • Kolom Label negeren: Selecteer deze optie als u een van de bovenstaande bewerkingen niet wilt uitvoeren.

  4. Gebruik in de cluster module sweep de optie voor de meet waarde voorhet bepalen van het cluster resultaat om de reken kundige methode op te geven die moet worden gebruikt bij het schatten van de aanpassing van het getrainde cluster model:

    • Vereenvoudigd silhouet: met deze metriek wordt de nauw keurigheid van gegevens punten binnen elk cluster vastgelegd. Het wordt berekend als een combi natie van de gelijkenis van elke rij met het bijbehorende cluster en de gelijkenis met het dichtstbijzijnde cluster. Als het cluster slechts één rij heeft, wordt de evenredige afstand tot de eerstvolgende dichtstbijzijnde massa middelpunt berekend in plaats daarvan, om te voor komen dat u 0 als resultaat krijgt. ' Vereenvoudigd ' verwijst naar het feit dat de afstand naar cluster massa middelpunt wordt gebruikt als een eenvoudige gelijkenis meting. In het algemeen is een hogere score beter. De gemiddelde waarde over de gegevensset geeft aan hoe goed de gegevens zijn geclusterd. Als er te veel of te weinig clusters zijn, hebben sommige clusters lagere silhouet-waarden dan de rest. Zie Dit Wikipedia-artikelvoor meer informatie.

    • Davies-Bouldin: deze metriek is van doel om de kleinste set clusters met de minste sprei ding te identificeren. Omdat de metriek wordt gedefinieerd als een verhouding van sprei ding binnen elk cluster via cluster scheiding, betekent een lagere waarde dat clustering beter is. Het beste cluster model minimaliseert deze metriek. Voor het berekenen van de Davies-Bouldin metriek, wordt de gemiddelde rij voor massa middelpunt afstand berekend per cluster. Voor elk paar clusters wordt de som van die gemiddelden gedeeld door de afstand tussen centroids. De maximale waarde voor alle andere clusters wordt geselecteerd voor elk cluster en gemiddeld op alle clusters. Zie Dit Wikipedia-artikelvoor meer informatie.

    • Dunn: deze metriek is van doel om de kleinste set van de meeste compacte clusters te identificeren. Over het algemeen duidt een hogere waarde voor deze metriek op betere clustering. Voor het berekenen van de metrische waarde voor Dunn wordt de minimale massa middelpunt-to-massa middelpunt-afstand gedeeld door de maximale afstand van elk gegevens punt naar het cluster centrum. Zie Dit Wikipedia-artikelvoor meer informatie.

    • Gemiddelde afwijking: deze metriek wordt berekend door de gemiddelde afstand van elk gegevens punt naar het cluster centrum te nemen. De waarde neemt af naarmate het aantal centroids toeneemt. Daarom is het niet handig als u het aantal centroids wilt opsporen. Deze metrische gegevens worden aanbevolen voor gebruik wanneer u het beste massa middelpunt-initialisatie zaad kiest.

  5. De modus voor het opruimen van para meters opgeven: Selecteer een optie die de combi Naties van waarden definieert die worden gebruikt bij de training en hoe deze worden gekozen:

    • Volledig raster: alle waarden binnen het opgegeven bereik worden geprobeerd en geëvalueerd. Deze optie is doorgaans kostbaarer duur.

    • Wille keurige sweep: gebruik deze optie om het aantal uitvoeringen te beperken. Het cluster model wordt gebouwd en geëvalueerd aan de hand van een combi natie van waarden die wille keurig uit het toegestane bereik van parameter waarden zijn gekozen.

  6. Maximum aantal uitvoeringen op wille keurige sweep: Stel deze optie in als u de optie wille keurige sweep kiest. Typ een waarde om het maximum aantal herhalingen te beperken bij het testen van sets wille keurig gekozen para meters.

    Waarschuwing

    De herhalings parameters van de K-betekent dat cluster module een ander doel hebben en niet wordt beïnvloed door deze instelling: Hiermee wordt het aantal Passes beperkt over de gegevens die worden gemaakt om clusters te verbeteren, door de gemiddelde afstand van elk gegevens punt naar het cluster centroids te minimaliseren. Daarentegen worden de herhalingen gedefinieerd door de para meter clustering module sweep worden uitgevoerd om verschillende wille keurige massa middelpunt-initialisaties te proberen. Dit minimale oplossings probleem is NP-hard. Daarom kunt u verschillende aselecte zaden proberen om betere resultaten te verkrijgen.

    Als u een wille keurige sweep selecteert, gebruikt u de optie wille keurige Seed om de initiële waarden voor wille keurige seeding op te geven, waarop u de centroids gaat maken. Een voor deel van het gebruik van een parameter opruiming voor het maken van een cluster model is dat u eenvoudig meerdere seed-waarden kunt testen om de bekende gevoeligheid van cluster modellen te beperken tot de oorspronkelijke Seed-waarde.

  7. Klik op kolom seten kies de kolommen die moeten worden gebruikt bij het maken van de clusters. Standaard worden alle functie kolommen gebruikt bij het maken en testen van het cluster model.

    U kunt een kolom Label toevoegen als deze aanwezig is in uw gegevensset. Als er een label aanwezig is, kunt u dit gebruiken om de selectie van centroids te begeleiden, het label te gebruiken als een functie of het label te negeren. Stel deze opties in voor het label verwerking van de cluster module Kmeans , zoals beschreven in stap 3 hierboven.

  8. Controleren op toevoegen of uitschakelen alleen voor resultaat: gebruik deze optie om te bepalen welke kolommen worden geretourneerd in de resultaten.

    De module retourneert standaard de oorspronkelijke kolommen van de trainings gegevensset samen met de resultaten. Als u deze optie uitschakelt. alleen de cluster toewijzingen worden geretourneerd.

  9. Voeg de module gegevens toewijzen aan clusters toe aan uw experiment.

  10. Verbind de uitvoer met het beste getrainde model met de getrainde model invoer voor het toewijzen van gegevens aan clusters.

  11. Voeg de gegevensset toe die is bedoeld voor evaluatie en verbind deze met de gegevensset -poort van de module gegevens toewijzen aan clusters .

  12. Voeg de module Evaluate model toe en verbind deze om gegevens toe te wijzen aan clusters. U kunt desgewenst een evaluatie gegevensset verbinden.

  13. Voer het experiment uit.

Resultaten

De module voor het opruimen van clusters voert drie verschillende resultaten uit:

  • Beste getraind model. Een getraind model dat u kunt gebruiken voor het scoren en evalueren. Klik met de rechter muisknop en selecteer Opslaan als getraind model om het geoptimaliseerde cluster model vast te leggen en te gebruiken voor het scoren.

  • Gegevensset voor resultaten. Een set cluster toewijzingen op basis van het geoptimaliseerde model.

    Kolomnaam Beschrijving
    Toewijzingen Met deze waarde wordt het cluster aangegeven waaraan elk gegevens punt is toegewezen. De clusters in het getrainde model zijn gelabeld met op 0 gebaseerde indexen.
    DistancesToClusterCenter. 1

    DistancesToClusterCenter. n
    Deze waarde geeft aan hoe dicht het gegevens punt zich in het midden van elk cluster bevindt.

    Er wordt een kolom gemaakt voor elk cluster dat in het geoptimaliseerde model is gemaakt.

    U kunt het aantal clusters beperken met behulp van de optie aantal centroids .

    Standaard kunt u de kolommen uit de gegevensset van de training samen met de resultaten retour neren, om het gemakkelijker te maken om de cluster toewijzingen te controleren en te interpreteren.

  • Resultaten opruimen. Een gegevensset met de volgende metrische gegevens van de evaluatie versie voor de clusters:

    Kolomnaam Beschrijving
    Cluster metriek Een waarde die de gemiddelde cluster kwaliteit van de uitvoering aangeeft. De uitvoeringen worden gesorteerd op basis van de beste score.
    Aantal centroids Het aantal clusters dat is gemaakt in deze specifieke herhaling van de sweep
    Index van run Een id voor elke herhaling

    Tip

    De waarden die voor de cluster metriek worden geretourneerd, moeten anders worden geïnterpreteerd, afhankelijk van welke metriek u hebt gekozen bij het instellen van de sweep. Voor de standaard waarde, vereenvoudigd silhouet, is een hogere score beter. Een lagere score voor Davies-Bouldinis beter.

Voorbeelden

Voor voor beelden van een parameter opruiming met k-means clustering raadpleegt u de Azure AI Gallery:

Technische opmerkingen

Deze sectie bevat tips en implementatie details.

Cluster modellen optimaliseren

De kwaliteit en nauw keurigheid van cluster modellen kunnen sterk worden beïnvloed door de keuze van de eerste para meters, zoals het aantal centroids en de Seed-waarde die wordt gebruikt voor het initialiseren van het cluster. De clustering module sweep helpt u de beste combi natie van para meters te vinden om deze gevoeligheid te beperken tot de eerste para meters. U geeft een reeks para meters op die u wilt testen. de module bouwt en test automatisch meerdere modellen en selecteert ten slotte het optimale aantal clusters.

Als u een para meter sweep wilt maken, moet u ook de cluster module K-betekent configureren voor het gebruik van een parameter opruimen. U kunt opgeven dat de sweep alle mogelijke combi Naties van para meters herhaalt of een wille keurige combi natie van para meters gebruiken. U kunt ook een van de standaard metrische gegevens kiezen voor het meten van de nauw keurigheid van de centroids tijdens het proces voor het maken en testen van iteratieve modellen. Nadat het opgegeven aantal herhalingen is voltooid, selecteert de module het beste aantal clusters, op basis van de geselecteerde metrische gegevens en worden rapporten uitgevoerd die u kunt gebruiken om de resultaten te beoordelen.

Gebruiks tips

  • In sommige gevallen is het mogelijk dat u al weet hoeveel clusters u verwacht te vinden. Uw gegevens kunnen bijvoorbeeld klassen labels hebben die kunnen worden gebruikt in de GUID van de selectie van de centroids. In dat geval kunt u de clustering module K-betekent configureren voor het gebruik van de kolom Label om de selectie van de eerste centroids te begeleiden.

  • Als u een aantal van de verwachte clusters kent, maar niet zeker weet hoeveel clusters optimaal zijn, stelt u het aantal centroids in op een getal dat groter is dan het aantal bekende label waarden. De cluster module sweep maakt clusters voor de bekende gegevens punten en bepaalt vervolgens het optimale aantal extra clusters voor de resterende gegevens punten.

Ontbrekende waarden in de kolom Label verwerken

Er zijn verschillende manieren om ontbrekende waarden in de kolom label te verwerken. Stel dat u een taak classificeert voor een installatie kopie en slechts enkele van de afbeeldingen hebt gelabeld.

U kunt de kolom Label gebruiken om de selectie van de centroids te begeleiden, maar geef op dat ontbrekende labels moeten worden ingevuld met behulp van de cluster toewijzingen. Met andere woorden, bestaande label waarden worden niet gewijzigd, maar ontbrekende labels worden ingevuld.

Voor alle gegevens punten die aan een cluster zijn toegewezen, kunt u ook de bestaande labels overschrijven met één label dat het beste het cluster weergeeft. Als u wilt weten hoe deze optie nuttig is, stelt u zich voor dat u afbeeldings gegevens met zeer gedetailleerde labels gebruikt, zoals verschillende honden-rassen. Met deze optie kunt u alle gedetailleerde labels vervangen door één categorie label, hond.

Seed-waarden in het logboek

Het logboek bestand dat wordt gegenereerd door de module Train clustering model wordt weer gegeven om aan te geven dat dezelfde Seed wordt gebruikt voor alle iteraties van het algoritme k-means Clustering, ongeacht het zaad dat is gegeven in de eigenschap Random Seed .

De implementatie maakt gebruik van het door de gebruiker opgegeven zaad om een reeks wille keurige getallen te genereren die voor elke uitvoering verschillend zijn. Daarom is er slechts één Seed nodig om alle wille keurig gegenereerde getallen te maken.

Het doel van het logboek geeft aan welke Seed de module gebruikt wanneer de gebruiker geen seed opgeeft in het deel venster Eigenschappen .

Verwachte invoer

Naam Type Beschrijving
Niet-traind model ICluster-interface Niet-getraind cluster model
Gegevensset Gegevens tabel Invoer gegevens bron

Module parameters

Naam Type Waarden Optioneel Standaard Beschrijving
Meet waarde voor het bepalen van het cluster resultaat Cluster metriek Vereenvoudigd silhouet, Davies-Bouldin, Dunn, gemiddelde afwijking Vereist Vereenvoudigd silhouet De metriek selecteren die wordt gebruikt voor het evalueren van regressie modellen
Modus voor het opruimen van para meters opgeven Sweep-methoden Volledig raster of wille keurige sweep Vereist Wille keurige sweep Het volledige raster over de parameter ruimte opruimen of opruimen met behulp van een beperkt aantal voorbeeld runs
Kolomset ColumnSelection Vereist Kolom selectie patroon
Maximum aantal uitvoeringen op wille keurige sweep Geheel getal [1; 10000] Alleen beschikbaar wanneer SweepingMode is ingesteld op wille keurige sweep 5 Stel het maximum aantal uitvoeringen in dat moet worden uitgevoerd wanneer wille keurige leegmaak bewerkingen worden gebruikt
Wille keurige Seed Geheel getal Alleen beschikbaar wanneer SweepingMode is ingesteld op wille keurige sweep 0 Geef een waarde op voor de generator van wille keurige getallen voor wille keurige sweep
Controleren op toevoegen of uitschakelen alleen voor resultaat Boolean-waarde Vereist Waar Selecteer deze optie om aan te geven dat de uitvoer-gegevensset invoer gegevensset moet bevatten waarvoor de kolom toewijzingen is toegevoegd. Schakel dit selectie vakje uit om aan te geven dat alleen de kolom toewijzingen moeten worden uitgevoerd.

Outputs

Naam Type Beschrijving
Beste getraind model ICluster-interface Getraind clustering-model
Gegevensset voor resultaten Gegevens tabel Invoer gegevensset toegevoegd door de gegevens kolom van toewijzingen of de kolom toewijzingen
Resultaten opruimen Gegevens tabel Resultaat van de metrische logboeken voor het opruimen van clusters

Uitzonderingen

Uitzondering Beschrijving
Fout 0003 Uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

K: Clustering
Gegevens toewijzen aan clusters
Machine Learning/trein
Model/clustering Machine Learning/initialiseren