Replace Discrete Values

Ersetzt diskrete Werte aus einer Spalte durch numerische Werte, die auf einer anderen Spalte basieren.

Kategorie: statistische Funktionen

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul " diskrete Werte ersetzen " in Azure Machine Learning Studio (klassisch) verwenden, um ein Wahrscheinlichkeits Ergebnis zu generieren, das zum Darstellen eines diskreten Werts verwendet werden kann. Diese Bewertung kann nützlich sein, um den Informationswert der diskreten Werte zu verstehen.

So funktioniert's:

Wählen Sie eine Spalte aus, die den diskreten (oder kategorischen) Wert enthält, und wählen Sie dann eine andere Spalte aus, die als Verweis verwendet werden soll.

Abhängig davon, ob es sich bei der zweiten Spalte um eine kategorische oder nicht kategorische Spalte handelt, berechnet das Modul einen der folgenden Werte:

  • Die bedingte Wahrscheinlichkeit für die zweite Spalte, bei der die Werte in der ersten Spalte angegeben sind.
  • Der Mittelwert und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte.

Das Modul gibt sowohl ein DataSet mit den Bewertungen als auch eine Funktion aus, die Sie speichern und auf andere Datasets anwenden können.

Konfigurieren von diskreten Werten

Tipp

Es wird empfohlen, jeweils nur mit einem Spalten paar zu arbeiten. Das Modul gibt keinen Fehler aus, wenn Sie mehrere zu analysierende Spalten auswählen. Wenn Sie jedoch mehrere Spalten auswählen, werden diese mit einer internen heuristischen, nicht nach der Reihenfolge der Auswahl abgeglichen.

Daher wird empfohlen, jedes Mal ein einzelnes Spalten Paar auszuwählen, eines für diskrete Spalten und eines für Ersetzungs Spalten.

Wenn Sie Ergebnisse für mehrere Spalten generieren müssen, verwenden Sie separate Instanzen von, um diskrete Werte zu ersetzen.

  1. Fügen Sie Ihrem Experiment das Modul zum Ersetzen von diskreten Werten hinzu. Sie finden dieses Modul in der Gruppe " statistische Funktionen " in der Liste der Experiment Elemente in Azure Machine Learning Studio (klassisch).

  2. Verbinden Sie ein DataSet, das mindestens eine Spalte mit kategorischen Daten enthält.

  3. Diskrete Spalten: Klicken Sie auf Start Spaltenauswahl , um eine Spalte auszuwählen, die diskrete (oder kategorische) Werte enthält.

    Alle diskreten Spalten, die Sie auswählen, müssen kategorisiert sein. Wenn Sie einen Fehler erhalten, verwenden Sie das Modul Edit Metadata , um den Spaltentyp zu ändern.

  4. Ersetzungs Spalten: Klicken Sie auf Start Spaltenauswahl , um die Spalte auszuwählen, die die Werte enthält, die beim Berechnen eines Ersatz Ergebnisses verwendet werden sollen.

    Wenn Sie mehrere Spalten für diskrete Spalten auswählen, müssen Sie die gleiche Anzahl von Ersetzungs Spalten auswählen.

  5. Führen Sie das Experiment aus.

    Hinweis

    Sie können nicht auswählen, welche statistische Funktion angewendet werden soll. Das Modul berechnet basierend auf dem Datentyp der Spalte, die für die Ersetzungs Spalte ausgewählt wurde, ein entsprechendes Measure.

Ergebnisse

Das Modul berechnet einen der folgenden Werte für jedes Spalten paar:

  • Wenn die zweite Spalte kategorische Werte enthält, berechnet das Modul die bedingte Wahrscheinlichkeit der zweiten Spalte, wenn die Werte in der ersten Spalte angegeben werden.

    Nehmen Sie beispielsweise an, dass Sie occupation aus dem Census -DataSet als diskrete Spalte ausgewählt haben und gender als Ersatz Spalte auswählen. Die Ausgabe des Moduls lautet wie folgt:

    P(gender | occupation)

  • Wenn die zweite Spalte nicht kategorische Werte enthält, die in Zahlen konvertiert werden können (z. b. numerische oder boolesche Werte, die nicht als kategorisiert gekennzeichnet sind), gibt das Modul die mittlere und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte aus.

    Nehmen Sie beispielsweise an, dass Sie occupation als diskrete Spalte verwenden und die andere Spalte die numerische Spalte ist hours-per-week . Das Modul gibt die folgenden neuen Werte aus:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Zusätzlich zu den Wahrscheinlichkeits Bewertungen gibt das Modul auch ein transformiertes DataSet aus. In diesem DataSet wird die als Ersetzungs Spalten ausgewählte Spalte durch eine Spalte ersetzt, die die berechneten Ergebnisse enthält.

Tipp

Die Spalten im Quell Dataset werden vom Vorgang nicht geändert oder gelöscht. die Bewertungs Spalten sind neue, die vom Modul generiert werden, und die Ausgabe anstelle der Quelldaten.

Verwenden Sie das Modul Add Columns , um die Quell Werte in Verbindung mit den Wahrscheinlichkeits Bewertungen anzuzeigen.

Beispiele

Die Verwendung von " diskrete Werte ersetzen " kann durch einige einfache Beispiele veranschaulicht werden.

Beispiel 1: Ersetzen eines kategorischen Werts durch ein Wahrscheinlichkeits Ergebnis

Die folgende Tabelle enthält eine kategoriale Spalte X und eine Spalte Y mit Wahr/Falsch-Werten (True/False), die als kategoriale Werte behandelt werden. Wenn Sie " diskrete Werte ersetzen" verwenden, wird ein bedingtes Wahrscheinlichkeits Ergebnis für die Wahrscheinlichkeit von Y angegeben, wie in der dritten Spalte dargestellt.

X J P (Y|X)
Blau 0 P(Y=0|X=Blue) = 0.5
Blau 1 P(Y=1|X=Blue) = 0.5
Grün 0 P(Y=0|X=Green) = 2/3
Grün 0 P(Y=0|X=Green) = 2/3
Grün 1 P(Y=1|X=Green) = 1/3
Red 0 P(Y=0|X=Red) = .75
Red 0 P(Y=0|X=Red) = .75
Red 1 P(Y=1|X=Red) = .25
Red 0 P(Y=0|X=Red) = .75

Beispiel 2: Berechnen der Mittel-und Standardabweichung basierend auf einer nicht kategorischen Spalte

Wenn die zweite Spalte numerisch ist, wird durch die Ersetzung von diskreten Werten der Mittelwert und die Standardabweichung anstelle eines bedingten Wahrscheinlichkeits Ergebnisses berechnet.

Das folgende Beispiel basiert auf dem Beispiel Dataset für Automatische Preise , das wie folgt vereinfacht wird:

  • Eine kleine Teilmenge von Spalten wurde ausgewählt.

  • Nur die ersten 30 Zeilen wurden mithilfe der Head -Option des Partitions-und Beispiel Moduls extrahiert.

  • Das Modul zum ersetzen diskreter Werte wurde verwendet, um den Mittelwert und die Standardabweichung für das Fahrzeuggewicht zu berechnen. bei Angabe der Kategories palte num-of-doors .

Die Ergebnisse werden in der folgenden Tabelle veranschaulicht:

Text Num-of-doors Curb-weight Mean (Drosselung|num-of-Doors) Std-dev (Drosselung|num-of-Doors)
std two 2548 2429,785714 507,45699
std four 2337 2625,6 493,409877
std two 2507 2429,785714 507,45699
turbo four 3086 2625,6 5 493,409877
std four 1989 2625,6 493,409877
turbo 2191
std four 2535 2625,6 493,409877

Sie können den Mittelwert für jede Gruppe von Werten überprüfen, indem Sie die- AVERAGEIF Funktion in Excel verwenden.

Beispiel 3: Behandeln fehlender Werte

In diesem Beispiel wird veranschaulicht, wie fehlende Werte (Nullen) an die Ergebnisse weitergegeben werden, wenn bedingte Wahrscheinlichkeits Ergebnisse berechnet werden.

  • Wenn die Spalte mit den diskreten Werten und die Berechnungssuchspalte fehlende Werte enthalten, werden die fehlenden Werte in die neue Spalte übertragen.

  • Wenn die Spalte mit den diskreten Werten nur fehlende Werte enthält, kann das Modul die Spalte nicht verarbeiten, und eine Fehlermeldung wird ausgegeben.

X J P (Y|X)
1 Richtig P(Y=true|X=1) = 1/2
1 False P(Y=false|X=1) = 1/2
2 True P(Y=true|X=2) = 1/3
2 False P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Technische Hinweise

  • Sie müssen sicherstellen, dass alle diskreten Spalten, die Sie ersetzen möchten, kategorisiert sind. Andernfalls wird das Modul einen Fehler zurückgeben. Verwenden Sie hierzu das Modul Edit Metadata .

  • Wenn die zweite Spalte boolesche Werte enthält, werden die Wahr/Falsch-Werte TRUE und FALSE als numerische Werte äquivalent zu 0 und 1 verarbeitet.

  • Anhand der Formel für die Standardabweichungsspalte wird die Standardabweichung der Grundgesamtheit berechnet. Daher wird n im Nenner anstelle von (n-1) verwendet.

  • Wenn die zweite Spalte nicht kategorische Daten (numerische oder boolesche Werte) enthält, berechnet das Modul den Mittelwert und die Standardabweichung von Y für den angegebenen Wert von X.

    Das heißt, für jede Zeile im DataSet, das von indiziert wird i :

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Wenn die zweite Spalte kategorische Daten oder Werte enthält, die weder numerisch noch Boolesch sind, berechnet das Modul die bedingte Wahrscheinlichkeit von Y für den angegebenen Wert von X.

  • Alle booleschen Werte in der zweiten Spalte werden als numerische Daten mit "FALSE" und "TRUE" gleichbedeutend mit 0 und 1 verarbeitet.

  • Befindet sich in der Spalte mit den diskreten Werten eine Klasse, sodass in der zweiten Spalte eine Zeile mit einem fehlenden Wert vorhanden ist, beläuft sich die Summe der bedingten Wahrscheinlichkeiten innerhalb der Klasse auf weniger als 1.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard BESCHREIBUNG
Diskrete Spalten Any ColumnSelection Wählt die Spalten aus, die diskrete Werte enthalten.
Replacement columns Any ColumnSelection Wählt die Spalten aus, die die Daten enthalten, die anstelle der diskreten Werte verwendet werden sollen.

Ausgaben

Name Typ BESCHREIBUNG
Ergänztes Dataset Datentabelle Dataset mit ersetzten Daten
Transform-Funktion ITransform-Schnittstelle Definition der Transformationsfunktion, die auf andere Datasets angewendet werden kann.

Ausnahmen

Ausnahme Beschreibung
Fehler 0001 Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0020 Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0021 Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0017 Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.
Fehler 0026 Eine Ausnahme tritt auf, wenn Spalten mit identischen Namen nicht zulässig sind.
Fehler 0022 Eine Ausnahme tritt auf, wenn die Anzahl der ausgewählten Spalten im Eingabedataset nicht der erwarteten Anzahl entspricht.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Statistische Funktionen