Converteren naar indicatorwaarden

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Converteert categorische waarden in kolommen naar indicatorwaarden

Categorie: Gegevenstransformatie/manipulatie

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Converteren naar indicatorwaarden in Machine Learning Studio (klassiek) gebruikt. Het doel van deze module is om kolommen die categorische waarden bevatten te converteren naar een reeks binaire indicatorkolommen die gemakkelijker kunnen worden gebruikt als functies in een machine learning model.

Converteren naar indicatorwaarden configureren

  1. Voeg de module Converteren naar indicatorwaarden toe aan Machine Learning experiment en verbind deze met de gegevensset met de kolommen die u wilt converteren. U vindt deze module onder Gegevenstransformaties in de categorie Manipulatie .

  2. Gebruik de kolom selector om een of meer categorische kolommen te kiezen.

    Om ervoor te zorgen dat de kolommen die u selecteert categorisch zijn, gebruikt u Metagegevens bewerken vóór Converteren naar indicatorwaarden in uw experiment om de doelkolom als categorisch te markeren.

  3. Selecteer de optie Categorische kolommen overschrijven als u alleen de nieuwe Booleaanse kolommen wilt gebruiken.

    Deze optie is standaard uitgeschakeld, zodat u de categorische kolom kunt zien die de bron is, samen met de gerelateerde indicatorkolommen.

    Tip

    Als u de optie kiest om te overschrijven, wordt de bronkolom niet daadwerkelijk verwijderd of gewijzigd. In plaats daarvan worden de nieuwe kolommen gegenereerd en weergegeven in de uitvoerset en blijft de bronkolom beschikbaar in de werkruimte. Als u de oorspronkelijke gegevens wilt zien, kunt u de module Kolommen toevoegen op elk moment gebruiken om de bronkolom weer toe te voegen.

  4. Voer het experiment uit.

Resultaten

Stel dat u een kolom hebt met scores die aangeven of een server een hoge, gemiddelde of lage kans op fouten heeft.

Server-id Foutscore
10301 Beperkt
10302 Normaal
10303 Hoog

Wanneer u Converteren naar indicatorwaarden toe passen, wordt de enkelvoudige kolom met labels geconverteerd naar meerdere kolommen met Booleaanse waarden:

Server-id Foutscore - Laag Foutscore - Gemiddeld Foutscore - Hoog
10301 1 0 0
10302 0 1 0
10303 0 0 1

Dit is de manier waarop de conversie werkt:

  • In de kolom Foutscore waarin het risico wordt beschreven, zijn er slechts drie mogelijke waarden (Hoog, Gemiddeld en Laag) en ontbreken er geen waarden. Daarom worden er precies drie nieuwe kolommen gemaakt.

  • De nieuwe indicatorkolommen krijgen een naam op basis van de kolomkoppen en waarden van de bronkolom, met behulp van dit patroon: <bronkolom>- <gegevenswaarde>.

  • Er moet een 1 in precies één indicatorkolom staan en 0 in alle andere indicatorkolommen. Dat komt doordat elke server slechts één risicoclassificatie kan hebben.

U kunt nu de drie indicatorkolommen gebruiken als kenmerken en hun correlatie analyseren met andere eigenschappen die zijn gekoppeld aan een ander risiconiveau.

Voorbeelden

Zie de volgende Azure AI Gallery voor voorbeelden van hoe deze module wordt Azure AI Gallery:

  • Detectie van borstkanker: Patiënten worden in groepen op basis van patiënt-id-nummers in een bin binned, waarna Indicatorwaarden wordt gebruikt om te markeren tot welke groep de patiënt behoort. Later worden de groepsindicatoren gebruikt bij het scoren van modellen.

  • Directe marketing: Waarschijnlijkheden worden vergeleken met een constante met behulp van Wiskundige bewerking toepassen en de waarden Ja/Nee die aangeven of de score boven of onder de constante was, worden omgezet in nieuwe indicatorkolommen.

  • Detectie van binnendringing in het netwerk: logboekgegevens worden geladen vanuit Azure Storage. De klassevariabele (die bijvoorbeeld beschrijft als een aanval een rootkit of bufferoverloop is) wordt geconverteerd naar een categorische kolom en vervolgens uitgebreid naar meerdere indicatorwaarden.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Gebruikstips

  • Alleen kolommen die als categorisch zijn gemarkeerd, kunnen worden geconverteerd naar indicatorkolommen. Als u deze fout ziet, is een van de kolommen die u hebt geselecteerd waarschijnlijk niet categorisch:

    Fout 0056: Kolom met naamkolomnaam <> valt niet in een toegestane categorie.

    De meeste tekenreekskolommen worden standaard verwerkt als tekenreeksfuncties, dus u moet ze expliciet markeren als categorisch met metagegevens bewerken.

  • Er wordt een fout weergegeven als u niet ten minste één categorische kolom selecteert.

  • Er is geen limiet voor het aantal kolommen dat u kunt converteren naar indicatorkolommen. Omdat elke kolom met waarden echter meerdere indicatorkolommen kan opleveren, wilt u mogelijk slechts enkele kolommen tegelijk converteren en controleren.

  • Als de kolom ontbrekende waarden bevat, wordt er een afzonderlijke indicatorkolom gemaakt voor de ontbrekende categorie, met deze naam: <bronkolom>- Ontbreekt

  • Als de kolom die u converteert naar indicatorwaarden getallen bevat, moeten deze als categorisch worden gemarkeerd, net als elke andere functiekolom. Nadat u dit hebt gedaan, worden de getallen behandeld als discrete waarden. Als u bijvoorbeeld een numerieke kolom hebt met MPG-waarden tussen 25 en 30, wordt er een nieuwe indicatorkolom gemaakt voor elke discrete waarde:

    Merk Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30
    Alfa Romeo 0 0 0 0 0 1

    Om te voorkomen dat u een groot aantal indicatorkolommen krijgt, raden we u aan eerst het aantal waarden in de kolom te controleren en de gegevens op de juiste wijze te binnen of kwantiseren.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Gegevensset met categorische kolommen

Moduleparameters

Name Bereik Type Standaard Beschrijving
Categorische kolommen om te converteren Alle ColumnSelection Selecteer categorische kolommen die u wilt converteren naar indicator-matrices.
Categorische kolommen overschrijven Alle Boolean-waarde onjuist Als de optie Waar is, overschrijft u de geselecteerde categorische kolommen; anders moet u de resulterende indicator-matrices aan de gegevensset toegevoegd.

Uitvoer

Naam Type Description
Gegevensset met resultaten Gegevenstabel Gegevensset met categorische kolommen geconverteerd naar indicator-matrices.

Zie ook

Manipulatie
Gegevenstransformatie
Lijst met A-Z-modules