Discrete waarden vervangen

Hiermee worden discrete waarden uit één kolom vervangen door numerieke waarden op basis van een andere kolom

Categorie: statistische functies

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module discrete waarden vervangen gebruikt in azure machine learning Studio (klassiek) om een waarschijnlijkheids score te genereren die kan worden gebruikt om een discrete waarde te vertegenwoordigen. Deze score kan nuttig zijn bij het bepalen van de informatie waarde van de discrete waarden.

Hoe werkt het?

U selecteert een kolom die de discrete waarde (of categorische) bevat en selecteert vervolgens een andere kolom die u voor de verwijzing wilt gebruiken.

Afhankelijk van of de tweede kolom categorische of niet-categorische is, berekent de module een van de volgende waarden:

  • De voorwaardelijke kans voor de tweede kolom op basis van de waarden in de eerste kolom.
  • De gemiddelde en standaard afwijking voor elke groep waarden in de eerste kolom.

De module levert zowel een gegevensset met de scores als een functie die u kunt opslaan en Toep assen op andere gegevens sets.

Vervangende discrete waarden configureren

Tip

We raden u aan om slechts één paar kolommen tegelijk te werken. De module veroorzaakt geen fout als u meerdere kolommen selecteert die u wilt analyseren. Als u echter meerdere kolommen kiest, worden deze in de praktijk vergeleken met een interne heuristiek, niet op volg orde van selectie.

Daarom wordt u aangeraden één paar kolommen elke keer te selecteren, één voor afzonderlijke kolommen en één voor vervangende kolommen.

Als u scores voor meerdere kolommen wilt genereren, gebruikt u afzonderlijke instanties van vervangen discrete waarden.

  1. Voeg de module discrete waarden vervangen toe aan uw experiment. Deze module vindt u in de groep met statistische functies in de lijst proef items in azure machine learning Studio (klassiek).

  2. Verbind een gegevensset die ten minste één kolom met categorische-gegevens bevat.

  3. Discrete kolommen: Klik op kolom kiezer starten om een kolom te kiezen die discrete (of categorische) waarden bevat.

    Alle discrete kolommen die u selecteert, moeten categorische zijn. Als er een fout optreedt, gebruikt u de module meta gegevens bewerken om het kolom type te wijzigen.

  4. Vervangings kolommen: Klik op kolom kiezer starten om de kolom te kiezen die de waarden bevat die moeten worden gebruikt voor het berekenen van een vervangende Score.

    Als u meerdere kolommen voor discrete kolommenselecteert, moet u een gelijk aantal vervangende kolommen kiezen.

  5. Voer het experiment uit.

    Notitie

    U kunt niet kiezen welke statistische functie u wilt Toep assen. De module berekent een passende meting op basis van het gegevens type van de kolom die is geselecteerd voor de vervangings kolom.

Resultaten

De module berekent een van de volgende waarden voor elk paar kolommen:

  • Als de tweede kolom categorische-waarden bevat, berekent de module de voorwaardelijke kans van de tweede kolom, op basis van de waarden in de eerste kolom.

    Stel dat u hebt gekozen occupation uit de gegevensset voor tellingen als de discrete kolom en kies gender als vervangings kolom. De uitvoer van de module zou de volgende zijn:

    P(gender | occupation)

  • Als de tweede kolom niet-categorische waarden bevat die kunnen worden geconverteerd naar getallen (zoals numerieke of Booleaanse waarden die niet zijn gemarkeerd als categorische), levert de module de gemiddelde en standaard afwijking voor elke groep waarden in de eerste kolom.

    Stel dat u occupation als de discrete kolom gebruikt en dat de andere kolom de numerieke kolom is hours-per-week . De module voert de volgende nieuwe waarden uit:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Naast de waarschijnlijkheids scores voert de module ook een getransformeerde gegevensset uit. In deze gegevensset wordt de kolom die is geselecteerd als vervangings kolommen vervangen door een kolom met de berekende scores.

Tip

De kolommen in de bron-gegevensset worden niet daad werkelijk gewijzigd of verwijderd door de bewerking. de Score kolommen zijn nieuwe die worden gegenereerd door de module en uitvoer in plaats van de bron gegevens.

Als u de bron waarden samen met de waarschijnlijkheids scores wilt weer geven, gebruikt u de module kolommen toevoegen .

Voorbeelden

Het gebruik van afzonderlijke waarden voor vervangen kan worden geïllustreerd door enkele eenvoudige voor beelden.

Voor beeld 1: een categorische-waarde vervangen door een waarschijnlijkheids Score

De volgende tabel bevat een categorische kolom X en een kolom Y met waar/onwaar-waarden die worden behandeld als categorische-waarden. Wanneer u discrete waarden vervangengebruikt, wordt er een voorwaardelijke waarschijnlijkheids score berekend voor de kans van Y, zoals aangegeven in de derde kolom.

X J P (Y|X)
Blue 0 P(Y=0|X=Blue) = 0.5
Blue 1 P(Y=1|X=Blue) = 0.5
Green 0 P(Y=0|X=Green) = 2/3
Green 0 P(Y=0|X=Green) = 2/3
Green 1 P(Y=1|X=Green) = 1/3
Rood 0 P(Y=0|X=Red) = .75
Rood 0 P(Y=0|X=Red) = .75
Rood 1 P(Y=1|X=Red) = .25
Rood 0 P(Y=0|X=Red) = .75

Voor beeld 2: gemiddelde en standaard afwijking berekenen op basis van een noncategorical kolom

Wanneer de tweede kolom numeriek is, worden door discrete waarden vervangen het gemiddelde en de standaard afwijking in plaats van een voorwaardelijke waarschijnlijkheids score berekend.

Het volgende voor beeld is gebaseerd op de gegevensset voor het voor beeld van automatische prijzen , vereenvoudigd als volgt:

  • Er is een kleine subset met kolommen geselecteerd.

  • Alleen de bovenste 30 rijen zijn geëxtraheerd met de optie Head van de module Partition en sample .

  • De module discrete waarden vervangen werd gebruikt voor het berekenen van het gemiddelde en de standaard afwijking voor het gewicht van het Voer tuig. op basis van de kolom categorische, num-of-doors .

In de volgende tabel ziet u de resultaten:

Hoofdtekst NUM-of-deuren Rand breedte Gemiddelde (Wegbreedte-gewicht|aantal deuren) Std-dev (breedte van de rand,|NUM-of-deuren)
std twee 2548 2429,785714 507,45699
std elk 2337 2625,6 493,409877
std twee 2507 2429,785714 507,45699
turbine elk 3086 2625,6 5 493,409877
std elk 1989 2625,6 493,409877
turbine 2191
std elk 2535 2625,6 493,409877

U kunt het gemiddelde voor elke groep waarden controleren met behulp van de AVERAGEIF functie in Excel.

Voor beeld 3: ontbrekende waarden verwerken

In dit voor beeld wordt gedemonstreerd hoe ontbrekende waarden (Nulls) worden door gegeven aan de resultaten wanneer voorwaardelijke waarschijnlijkheids scores worden berekend.

  • Als de kolom discrete waarde en de opzoek kolom van de berekening ontbrekende waarden bevatten, worden de ontbrekende waarden door gegeven aan de nieuwe kolom.

  • Als de kolom discrete waarde alleen ontbrekende waarden bevat, kan de module de kolom niet verwerken en wordt er een fout bericht weer gegeven.

X J P (Y|X)
1 Waar P(Y=true|X=1) = 1/2
1 Niet waar P(Y=false|X=1) = 1/2
2 Waar P(Y=true|X=2) = 1/3
2 Niet waar P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Technische opmerkingen

  • U moet ervoor zorgen dat alle afzonderlijke kolommen die u wilt vervangen, categorische zijn, of dat er een fout wordt geretourneerd door de module. Gebruik hiervoor de module meta gegevens bewerken .

  • Als de tweede kolom Booleaanse waarden bevat, worden de waarden van de True-False verwerkt als numeriek met onwaar en waar gelijk aan 0 en 1.

  • De formule voor de standaard afwijking kolom berekent de standaard deviatie van de populatie. Daarom wordt N gebruikt in de noemer in plaats van (N-1).

  • Als de tweede kolom noncategorical gegevens (numerieke of Booleaanse waarden) bevat, berekent de module de gemiddelde en standaard afwijking van Y voor de opgegeven waarde van X.

    Dat wil zeggen, voor elke rij in de gegevensset die is geïndexeerd door i :

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Als de tweede kolom categorische gegevens of waarden bevat die niet numeriek of Booleaans zijn, berekent de module de voorwaardelijke kans van Y voor de opgegeven waarde van X.

  • Booleaanse waarden in de tweede kolom worden verwerkt als numerieke gegevens met onwaar en waar respectievelijk 0 en 1.

  • Als er sprake is van een klasse in de discrete kolom, zodat er een rij met een ontbrekende waarde aanwezig is in de tweede kolom, is de som van de voorwaardelijke kansen binnen de klasse kleiner dan een.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Discrete kolommen Alle ColumnSelection De kolommen met discrete waarden selecteren
Vervangings kolommen Alle ColumnSelection De kolommen selecteren die de gegevens bevatten die moeten worden gebruikt in plaats van de discrete waarden

Outputs

Naam Type Beschrijving
Aanvullende gegevensset Gegevens tabel Gegevensset met vervangen gegevens
De functie Transform ITransform-interface Definitie van de functie Transform die kan worden toegepast op andere gegevens sets

Uitzonderingen

Uitzondering Beschrijving
Fout 0001 Uitzonde ring treedt op als een of meer opgegeven kolommen van de gegevensset niet zijn gevonden.
Fout 0003 Uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0020 Uitzonde ring treedt op als het aantal kolommen in sommige gegevens sets die aan de module zijn door gegeven, te klein is.
Fout 0021 Uitzonde ring treedt op als het aantal rijen in een aantal gegevens sets dat is door gegeven aan de module te klein is.
Fout 0017 Uitzonde ring treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.
Fout 0026 Uitzonde ring treedt op wanneer kolommen met dezelfde naam niet zijn toegestaan.
Fout 0022 Uitzonde ring treedt op als het aantal geselecteerde kolommen in de invoer-gegevensset niet gelijk is aan het verwachte aantal.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Statistische functies