Gruppera kategoriska-värden

Grupperar data från flera kategorier till en ny kategori

Kategori: data omvandling/manipulering

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Översikt över modul

Den här artikeln beskriver hur du använder Group kategoriska Values -modulen i Azure Machine Learning Studio (klassisk) för att skapa en söknings tabell på plats.

Den typiska användningen för att gruppera kategoriska-värden är att slå samman flera sträng värden till en enda ny nivå. Du kan till exempel tilldela enskilda post nummer i en region till en enda regional kod eller gruppera flera produkter under en kategori.

Om du vill använda den här modulen skriver du de uppslags värden som du vill använda och mappar befintliga värden till de nya värdena. Du kan bara skapa grupperingar för kategoriska-kolumner, inte kolumner av numerisk typ eller kolumner som har angetts som etiketter eller funktioner.

Alla kolumn värden som inte uttryckligen mappas till en ny nivå tilldelas en standard nivå. Om du till exempel inte har mappat alla enskilda post nummer, grupperas de i en nivå för omappade värden, vilket du kan ge okänd namn.

Anteckning

Högst 20 nya nivåer kan skapas, inklusive standard nivån. Om du behöver fler värden, eller om du behöver definiera mappningar dynamiskt, rekommenderar vi att du använder anpassat R-skript i modulen Kör R-skript . Du kan också använda SQL-uttryck i modulen Använd SQL-omvandling .

Använda kategoriska-värden för grupper

Vi rekommenderar att du förbereder listan över befintliga värden och de nya kategorierna i förväg. För varje kategori ska du förbereda ett nytt kategori namn och en kommaavgränsad lista med värden som ska ingå i kategorin.

  1. Lägg till Group kategoriska Values -modulen i experimentet. Du hittar modulen under data omvandling, manipulering.

  2. Anslut en data uppsättning som har de värden som du vill transformera.

  3. I rutan Egenskaper för Group kategoriska-värden använder du kolumn väljaren för att välja den kolumn som har de nivåer som du vill minska.

    • Vi rekommenderar att du klickar på börja med och inga kolumner att starta och sedan lägger till kolumner efter namn. Annars kan för många kolumner läggas till som kandidater, vilket leder till ett fel.

    • Kolumnen måste vara en kategoriska-kolumn. Om det inte är det, lägger du till en överordnad Redigera metadata och ändrar kolumn typen.

    • Se till att ta bort alla kolumner som sträng ersättning inte ska användas för.

  4. I utmatnings läge anger du om du vill mata ut bara de nya nivåerna eller lägga till ändringarna för att se den ursprungliga kolumnen med Replacements sida vid sida.

    Standardvärdet, ResultOnly, visar bara de nya värdena. Alternativet InPlace ersätter de befintliga kolumnvärdena med de nya nivåerna.

  5. För Standard nivå namn anger du ett sträng värde som ska användas som ersättning för alla värden som inte uttryckligen mappas. Du kan använda något som "okänt" eller "default".

    Anteckning

    Värdet för standard nivå tillämpas på alla värden som inte kan mappas. Om du av misstag har inkluderat kolumner som du inte avsåg att mappa, används värdet för alla värden i kolumnerna. Kontrol lera därför att kolumn urvalet stämmer före bearbetning.

  6. För nya antal nivåer anger du ett tal som anger det totala antalet nya kategorier (nivåer), inklusive standard nivån för omappade värden.

  7. För namn på ny nivå 1 anger du det nya grupp namnet för den första kategorin.

  8. Skriv eller klistra in en fullständig lista över alla värden som ska mappas till den nya nivån i text rutan som följer omedelbart efter, kommaavgränsad lista över gamla nivåer som ska mappas till ny nivå 1. Jokertecken och reguljära uttryck är inte tillåtna.

  9. Fortsätt att skriva nya nivå namn och skriv eller klistra in värden som ska mappas till den nya nivån.

    Vi rekommenderar att du sparar listan med värden i en separat fil när du arbetar. Om du ändrar antalet nivåer tas alla strängar som du har angett bort, och du måste börja om från början.

    Men om du redigerar en modul som tidigare har sparats kan du återgå till de ursprungliga inställningarna.

  10. Kör experimentet.

Resultat

Om du vill visa resultaten högerklickar du på modulen kategoriska Values , väljer resultat data uppsättning och klickar på visualisera.

Exempel

Exempel på Machine Learning i praktiken finns Azure AI Gallery.

Du kan också prova den här modulen själv, genom att använda en liten data uppsättning med vissa String-variabler som enkelt kan grupperas, till exempel den bil data uppsättning för bilen som finns i Azure Machine Learning Studio (klassisk).

Vi antar att du vill gruppera bilar i data uppsättningen för bil i bilen efter motor storlek, med hjälp av antalet cylindrar. I stället för många olika motor storlekar kommer du att skapa de nya nivåerna, "Big", "små" och "andra" enligt följande:

  • Stora motorer: sex cylindrar eller större
  • Små motorer: två eller fyra cylindrar
  • Övrigt: allt annat
  1. Lägg till modulen Välj kolumner i data uppsättning och välj endast num-of-cylinders kolumnen.
  2. Lägg till modulen Redigera metadata och ändra num-of-cylinders kolumnen till kategoriska.
  3. Lägg till gruppen kategoriska Values och Anslut den ändrade data mängden.
  4. För Standard nivå namn skriver du other . Du behöver inte ange värden för den här nivån.
  5. För namn på ny nivå 1 skriver du big . I listan över gamla nivåer som ska mappas till nivå 1 klistrar du in six, eight, twelve .
  6. För namn på ny nivå 2 skriver du small . För de mappade värdena klistrar du in two, four .
  7. Kör experimentet.
  8. När du visualiserar resultaten inser du att den ursprungliga data uppsättningen hade några udda motor storlekar som du inte har använt för, till exempel five och three . Alla sådana objekt mappas till other nivån.

Tekniska anteckningar

Det här avsnittet innehåller implementerings information, tips och svar på vanliga frågor.

  • Du kan stöta på fel meddelandet "kolumnen med namnet" <columnname> "är inte i en tillåten kategori."

    Det här meddelandet anger att kolumnen som du har valt inte är en kategoriska-kolumn. Du kan markera kolumnen som Categorical genom att använda Redigera metadataeller välja en annan kolumn som innehåller lämpliga kategori värden.

Förväntade indata

Namn Typ Beskrivning
Datamängd Data tabell Data som ska grupperas

Parametrar för modul

Name Intervall Typ Standardvärde Beskrivning
Markerade kolumner valfri ColumnSelection CategoricalAll Markera de kolumner som ska grupperas.
Utmatnings läge valfri SparaTillFil ResultOnly Ange hur kategori etiketterna ska vara utdata.
Standard nivå namn valfri Sträng Ange standard nivån som ska användas om inga mappningar matchar.
Nytt antal nivåer Lista Antal grupper Ange antalet nivåer efter att värdena har grupper ATS, inklusive standard nivån.

Utdata

Namn Typ Beskrivning
Resultat data uppsättning Data tabell Grupperade data

Se även

Manipulering
Data omvandling
En-ö-modul lista