Groeps categorische waarden

Groepeert gegevens uit meerdere categorieën in een nieuwe categorie

Categorie: gegevens transformatie/-bewerking

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module Group categorische values in azure machine learning Studio (klassiek) gebruikt om een in-place opzoek tabel te maken.

Het gebruik van categorische-waarden is gebruikelijk om meerdere teken reeks waarden samen te voegen tot één nieuw niveau. U kunt bijvoorbeeld afzonderlijke post codes in een regio toewijzen aan één regionale code of meerdere producten groeperen onder één categorie.

Als u deze module wilt gebruiken, typt u de opzoek waarden die u wilt gebruiken en wijst u bestaande waarden toe aan de vervangings waarden. U kunt alleen groeperingen maken voor categorische-kolommen, niet voor kolommen van het numerieke type of de kolommen die zijn opgegeven als labels of functies.

Kolom waarden die niet expliciet worden toegewezen aan een nieuw niveau, worden toegewezen aan een standaard niveau. Als u bijvoorbeeld niet alle afzonderlijke post codes hebt toegewezen, worden deze gegroepeerd op een niveau voor niet-toegewezen waarden, die u mogelijk een onbekendenaam hebt gekregen.

Notitie

Er kunnen Maxi maal 20 nieuwe niveaus worden gemaakt, met inbegrip van het standaard niveau. Als u meer waarden nodig hebt of toewijzingen dynamisch moet definiëren, raden we u aan om aangepast R-script te gebruiken in de script module Execute r . U kunt ook SQL-instructies gebruiken in de module SQL-trans formatie Toep assen .

Groeps categorische waarden gebruiken

U wordt aangeraden de lijst met bestaande waarden en de nieuwe categorieën vooraf voor te bereiden. Voor elke categorie moet u een nieuwe categorie naam opstellen en een door komma's gescheiden lijst met waarden die u in de categorie wilt opnemen.

  1. Voeg de module groeps categorische-waarden toe aan uw experiment. U kunt de module vinden onder gegevens transformatie, bewerken.

  2. Verbind een gegevensset met de waarden die u wilt transformeren.

  3. Gebruik in het deel venster Eigenschappen van groeps categorische waardende kolom kiezer om de kolom te kiezen met de niveaus die u wilt reduceren.

    • U kunt het beste op beginnen met klikken en geen kolommen om te beginnen en vervolgens kolommen toevoegen op naam. Anders kunnen er te veel kolommen worden toegevoegd als kandidaten, waardoor er een fout optreedt.

    • De kolom moet een categorische-kolom zijn. Als dat niet het geval is, voegt u de upstream voor meta gegevens bewerken toe en wijzigt u het kolom Type.

    • Zorg ervoor dat u uit de invoer alle kolommen verwijdert waarnaar de vervanging van teken reeksen niet moet worden toegepast.

  4. Geef voor uitvoer modusaan of u alleen de nieuwe niveaus wilt uitvoeren, of Voeg de wijzigingen toe om de oorspronkelijke kolom te zien, met de vervangingen naast elkaar.

    In de standaard ResultOnlyworden alleen de nieuwe waarden weer gegeven. Met de optie InPlace worden de bestaande kolom waarden vervangen door de nieuwe niveaus.

  5. Voor de standaard naamvan het niveau typt u een teken reeks waarde die moet worden gebruikt als vervanging voor alle waarden die niet expliciet zijn toegewezen. U kunt bijvoorbeeld een ' onbekend ' of ' default ' gebruiken.

    Notitie

    Deze waarde voor het standaard niveau wordt toegepast op alle waarden die niet kunnen worden toegewezen. Als u per ongeluk kolommen hebt opgenomen die u niet wilt toewijzen, wordt de waarde toegepast op alle waarden in de kolommen. Controleer daarom of de kolom selectie nauw keurig is vóór de verwerking.

  6. Voor het nieuwe aantal niveaustypt u een getal dat het totale aantal nieuwe categorieën (niveaus) aangeeft, inclusief het standaard niveau voor niet-toegewezen waarden.

  7. Geef bij naam van nieuw niveau 1de nieuwe groeps naam op voor de eerste categorie.

  8. Typ of plak in het tekstvak dat onmiddellijk volgt, door komma's gescheiden lijst met oude niveaus, een volledige lijst met alle waarden die u wilt toewijzen aan het nieuwe niveau. Joker tekens en reguliere expressies zijn niet toegestaan.

  9. Ga door met het typen van nieuwe niveau namen en typ of plak waarden die moeten worden toegewezen aan het nieuwe niveau.

    U wordt aangeraden om de lijst met waarden in een afzonderlijk bestand op te slaan terwijl u werkt. Als u het aantal niveaus wijzigt, worden alle teken reeksen die u eerder hebt getypt, verwijderd en moet u opnieuw beginnen.

    Als u echter een module bewerkt die eerder is opgeslagen, kunt u terugkeren naar de oorspronkelijke instellingen.

  10. Voer het experiment uit.

Resultaten

Als u de resultaten wilt weer geven, klikt u met de rechter muisknop op de module groep categorische values , selecteert u gegevensset voor resultatenen klikt u op visualiseren.

Voorbeelden

Zie de Azure AI Galleryvoor voor beelden van machine learning in actie.

U kunt deze module ook gebruiken voor uzelf, door gebruik te maken van een kleine gegevensset met bepaalde teken reeks variabelen die eenvoudig kunnen worden gegroepeerd, zoals de gegevensset voor de prijs van de Auto Mobile die in azure machine learning Studio (klassiek) is opgenomen.

We gaan ervan uit dat u auto's wilt groeperen in de gegevensset voor auto Mobile-prijs per engine, met behulp van het aantal cilinders. In plaats van veel verschillende engine-grootten, maakt u de nieuwe niveaus "Big", "kleine" en "Overig" als volgt:

  • Big motoren: zes cilinders of groter
  • Kleine motoren: twee of vier cilinders
  • Overige: iets anders
  1. Voeg de module select columns in dataset toe en selecteer alleen de num-of-cylinders kolom.
  2. Voeg de module meta data bewerken toe en wijzig de num-of-cylinders kolom in categorische.
  3. Voeg de module groeps categorische-waarden toe en verbind de gewijzigde gegevensset.
  4. Typ voor de standaard naamvan het niveau other . U hoeft geen waarden op te geven voor dit niveau.
  5. Typ bij naam van nieuw niveau 1 big . Plak in de lijst met oude niveaus die u wilt toewijzen aan niveau 1 six, eight, twelve .
  6. Typ bij naam van nieuw niveau 2 small . Plak in voor de toegewezen waarden two, four .
  7. Voer het experiment uit.
  8. Wanneer u de resultaten visualiseren , realiseert u zich dat de oorspronkelijke gegevensset een aantal oneven-engine formaten had waarvoor u geen account hebt, zoals five en three . Al deze items worden toegewezen aan het other niveau.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

  • Het volgende fout bericht wordt weer gegeven: ' de kolom met <columnname> de naam ' bevindt zich niet in een toegestane categorie. '

    Dit bericht geeft aan dat de kolom die u hebt geselecteerd, geen kolom categorische is. U kunt de kolom markeren als met Categorical behulp van meta gegevens bewerkenof een andere kolom selecteren die de juiste categorie waarden bevat.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Gegevens naar groep

Module parameters

Naam Bereik Type Standaard Beschrijving
Geselecteerde kolommen alle ColumnSelection CategoricalAll Selecteer de kolommen die worden gegroepeerd.
Uitvoer modus alle Outputte ResultOnly Geef op hoe de categorielabels moeten worden uitgevoerd.
Standaard niveau naam alle Tekenreeks Geef het standaard niveau aan dat moet worden gebruikt als er geen toewijzingen overeenkomen.
Nieuw aantal niveaus Lijst Aantal groepen Geef het aantal niveaus op nadat waarden zijn gegroepeerd, met inbegrip van het standaard niveau.

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gegroepeerde gegevens

Zie ook

Kenmerken
Gegevens transformatie
Module lijst a-Z