Gegevens groepeer in het onderdeel Bins

In dit artikel wordt beschreven hoe u het onderdeel Gegevens groepeerlocaties in azure Machine Learning Designer gebruikt om nummers te groepeert of de distributie van continue gegevens te wijzigen.

Het onderdeel Gegevens groepeer in bins ondersteunt meerdere opties voor binning-gegevens. U kunt aanpassen hoe de bin-randen worden ingesteld en hoe waarden worden verdeeld in de opslaglocaties. U kunt bijvoorbeeld het volgende doen:

  • Typ handmatig een reeks waarden die als de bin-grenzen moeten fungeren.
  • Wijs waarden toe aan bins met behulp van kwantielen of percentielrangen.
  • Een gelijkmatige verdeling van waarden in de opslaglocaties afdwingen.

Meer informatie over binning en groepering

Het binnen of groeperen van gegevens (ook wel kwantisatie genoemd) is een belangrijk hulpmiddel bij het voorbereiden van numerieke gegevens voor machine learning. Dit is handig in scenario's als deze:

  • Een kolom met doorlopende getallen bevat te veel unieke waarden om effectief te modelleren. U wijst de waarden dus automatisch of handmatig toe aan groepen om een kleinere set discrete bereiken te maken.

  • U wilt een kolom met getallen vervangen door categorische waarden die specifieke bereiken vertegenwoordigen.

    U kunt bijvoorbeeld waarden in een leeftijdskolom groeperen door aangepaste bereiken op te geven, zoals 1-15, 16-22, 23-30, enzovoort voor demografische gegevens van gebruikers.

  • Een gegevensset heeft een paar extreme waarden, allemaal ruim buiten het verwachte bereik, en deze waarden hebben een te grote invloed op het getrainde model. Om de vooroordelen in het model te beperken, kunt u de gegevens transformeren naar een uniforme verdeling met behulp van de methode quantiles.

    Met deze methode bepaalt het onderdeel Gegevens groepeer in bins de ideale bin-locaties en bin-breedtes om ervoor te zorgen dat ongeveer hetzelfde aantal voorbeelden in elke bin valt. Afhankelijk van de normalisatiemethode die u kiest, worden de waarden in de opslaglocaties omgezet in percentielen of toegewezen aan een bin-nummer.

Voorbeelden van binning

In het volgende diagram ziet u de verdeling van numerieke waarden vóór en na binning met de methode quantiles . U ziet dat in vergelijking met de onbewerkte gegevens aan de linkerkant, de gegevens zijn binned en getransformeerd naar een schaal met eenheidsnorm.

Resultaatvisualisatie

Omdat er zoveel manieren zijn om gegevens te groeperen, die allemaal kunnen worden aangepast, raden we u aan om te experimenteren met verschillende methoden en waarden.

Groepsgegevens configureren in opslaglocaties

  1. Voeg het onderdeel Gegevens groepeerlocaties toe aan uw pijplijn in de ontwerpfunctie. U vindt dit onderdeel in de categorie Gegevenstransformatie.

  2. Koppel de gegevensset met numerieke gegevens aan de bin. Kwantisatie kan alleen worden toegepast op kolommen die numerieke gegevens bevatten.

    Als de gegevensset niet-numerieke kolommen bevat, gebruikt u het onderdeel Kolommen selecteren in gegevensset om een subset van kolommen te selecteren waarmee u wilt werken.

  3. Geef de binning-modus op. De binning-modus bepaalt andere parameters, dus zorg ervoor dat u eerst de optie Binning-modus selecteert. De volgende typen binning worden ondersteund:

    • Kwantiielen: de kwantiielmethode wijst waarden toe aan bins op basis van percentielrangen. Deze methode wordt ook wel binning met gelijke hoogte genoemd.

    • Gelijke breedte: met deze optie moet u het totale aantal opslaglocaties opgeven. De waarden uit de gegevenskolom worden in de opslaglocaties geplaatst, zodat elke bin hetzelfde interval heeft tussen de begin- en eindwaarden. Als gevolg hiervan kunnen sommige opslaglocaties meer waarden hebben als gegevens rond een bepaald punt zijn geslonken.

    • Aangepaste randen: u kunt de waarden opgeven waarmee elke bin begint. De randwaarde is altijd de ondergrens van de opslaglocatie.

      Stel dat u waarden in twee klassen wilt groepeert. De ene waarde is groter dan 0 en de andere heeft waarden die kleiner zijn dan of gelijk zijn aan 0. In dit geval voert u voor bin-randen 0 in in de lijst met door komma's gescheiden bin-randen. De uitvoer van het onderdeel is 1 en 2, waarmee de bin-index voor elke rijwaarde wordt aangegeven. Houd er rekening mee dat de lijst met door komma's gescheiden waarden een oplopende volgorde moet hebben, zoals 1, 3, 5, 7.

    Notitie

    Entropy MDL-modus is gedefinieerd in Studio (klassiek) en er is nog geen corresponderend open source-pakket dat kan worden gebruikt ter ondersteuning in Designer.

  4. Als u de binningmodi Kwantielen en Gelijke breedte gebruikt, gebruikt u de optie Aantal bins om op te geven hoeveel bins, of kwantielen, u wilt maken.

  5. Gebruik voor Kolommen in bin de kolomkiezer om de kolommen te kiezen met de waarden die u wilt binen. Kolommen moeten een numeriek gegevenstype zijn.

    Dezelfde binning-regel wordt toegepast op alle toepasselijke kolommen die u kiest. Als u een aantal kolommen wilt in een andere indeling wilt opnemen, gebruikt u een afzonderlijk exemplaar van het onderdeel Gegevens groeperen in Bins voor elke set kolommen.

    Waarschuwing

    Als u een kolom kiest die niet is toegestaan, wordt er een runtimefout gegenereerd. Het onderdeel retourneert een fout zodra een kolom van een niet-toegestaan type wordt gevonden. Als er een fout optreedt, controleert u alle geselecteerde kolommen. De fout bevat niet alle ongeldige kolommen.

  6. Geef voor uitvoermodus aan hoe u de gekwantiseerde waarden wilt uitvoeren:

    • Toevoegen: hiermee maakt u een nieuwe kolom met de binned-waarden en voegt u deze toe aan de invoertabel.

    • Inplace: vervangt de oorspronkelijke waarden door de nieuwe waarden in de gegevensset.

    • ResultOnly: retourneert alleen de resultaatkolommen.

  7. Als u de binningmodus Kwantielen selecteert, gebruikt u de optie Voor normalisatie van Kwantiel om te bepalen hoe waarden worden genormaliseerd voordat u in kwantiielen sorteert. Houd er rekening mee dat het normaliseren van waarden de waarden transformeert, maar niet van invloed is op het uiteindelijke aantal opslaglocaties.

    De volgende normalisatietypen worden ondersteund:

    • Percentage: waarden worden genormaliseerd binnen het bereik [0,100].

    • PQuantile: waarden worden genormaliseerd binnen het bereik [0,1].

    • QuantileIndex: waarden worden genormaliseerd binnen het bereik [1,aantal bins].

  8. Als u de optie Aangepaste randen kiest, voert u een door komma's gescheiden lijst met getallen in die u als bin-randen wilt gebruiken in het tekstvak Door komma's gescheiden lijst met door komma's gescheiden randen .

    De waarden markeren het punt dat de opslaglocaties verdeelt. Als u bijvoorbeeld één bin edge-waarde invoert, worden er twee opslaglocaties gegenereerd. Als u twee bin edge-waarden invoert, worden er drie bins gegenereerd.

    De waarden moeten worden gesorteerd in de volgorde waarin de opslaglocaties worden gemaakt, van laag naar hoog.

  9. Selecteer de optie Kolommen labelen als categorisch om aan te geven dat de gekwantiseerde kolommen moeten worden verwerkt als categorische variabelen.

  10. Verzend de pijplijn.

Resultaten

Het onderdeel Gegevens groepeer in bins retourneert een gegevensset waarin elk element is binned volgens de opgegeven modus.

Er wordt ook een binning-transformatie geretourneerd. Deze functie kan worden doorgegeven aan het onderdeel Transformatie toepassen om nieuwe voorbeelden van gegevens te binnen met behulp van dezelfde binning-modus en parameters.

Tip

Als u binning gebruikt voor uw trainingsgegevens, moet u dezelfde binning-methode gebruiken voor gegevens die u gebruikt voor testen en voorspellingen. U moet ook dezelfde bin-locaties en bin-breedten gebruiken.

Om ervoor te zorgen dat gegevens altijd worden getransformeerd met behulp van dezelfde binning-methode, raden we u aan om nuttige gegevenstransformaties op te slaan. Pas deze vervolgens toe op andere gegevenssets met behulp van het onderdeel Transformatie toepassen .

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.