Testen von Hypothesen mittels T-Test

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Vergleicht Mittel aus zwei Spalten mithilfe eines T-Tests

Kategorie: Statistische Funktionen

Hinweis

Giltnur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie die Testhypothese mithilfe des T-Test-Moduls in Machine Learning Studio (klassisch) verwenden, um Ergebnisse für drei Arten von T-Tests zu generieren:

  • Ein-Stichproben-t-Test
  • t-Test mit verbundenen Stichproben
  • t-Test mit unverbundenen Stichproben

Im Allgemeinen unterstützt ein t-Test Sie beim Vergleichen, ob zwei Gruppen unterschiedliche Mittelwerte aufweisen. Sie möchten z. B. die Versuchsdaten für Patienten, die das Medikament A erhalten haben, im Vergleich mit den Daten der Patienten auswerten, die Medikament B erhalten haben, um die Genesungsrate beider Gruppen zu vergleichen. Bei der Nullhypothese wird davon ausgegangen, dass die Genesungsrate in beiden Gruppen gleich ist. Außerdem wird angenommen, dass die Werte für die Genesungsrate in beiden Gruppen eine Normalverteilung aufweisen.

Mithilfe von Testhypothese mithilfe von t-Test und bereitstellung der Spalten, die die Wiederherstellungsraten als Eingabe enthalten, können Sie Ergebnisse erhalten, die angeben, ob der Unterschied sinnvoll ist, was bedeutet, dass die Null-Hypothese abgelehnt werden soll. Der Test berücksichtigt die Faktoren wie z. B. die Größe des Unterschieds zwischen den Werten, die Größe der Stichprobe (größer ist besser) und die Größe der Standardabweichung (niedriger ist besser).

Indem Sie die Ergebnisse der Testhypothese mithilfe des t-Test-Moduls überprüfen, können Sie bestimmen, ob die NULL-Hypothese WAHR oder FALSCH ist, und die Konfidenzergebnisse (P) aus dem T-Test überprüfen.

Auswählen eines T-Tests

Wählen Sie einen einzelnen Beispiel-T-Test aus, wenn diese Bedingungen gelten:

  • Sie haben eine einzelne Stichprobe mit Bewertungen.

  • Alle Bewertungen sind unabhängig voneinander.

  • Die Samplingverteilung von xˉ ist normal.

Im Allgemeinen wird ein einzelner Stichproben-t-Test verwendet, um einen Durchschnittswert mit einer bekannten Zahl zu vergleichen.

Wählen Sie einen gekoppelten T-Test aus, wenn diese Bedingungen gelten:

  • Sie haben übereinstimmende Bewertungspaare. Sie verfügen beispielsweise über zwei verschiedene Messwerte pro Person oder zusammenpassende Paare von Einzelpersonen, z. B. Ehemann und Ehefrau.

  • Jedes Bewertungspaar ist unabhängig von jedem anderen Paar.

  • Die Samplingverteilung von d ist normal.

Ein gepaarter t-Test eignet sich zum Vergleichen von ähnlichen Fällen. Durch Ermitteln des Durchschnitts der Unterschiede zwischen den Bewertungen der gepaarten Fälle können Sie bestimmen, ob die Gesamtdifferenz statistisch signifikant ist.

Wählen Sie einen unbezahlten T-Test aus, wenn diese Bedingungen gelten:

  • Sie haben zwei unabhängige Stichproben von Bewertungen. Das heißt, es gibt keine Grundlage zum Verbinden der Bewertungen in Stichprobe 1 mit denen in Stichprobe 2.

  • Alle Bewertungen innerhalb einer Stichprobe sind unabhängig von allen anderen Bewertungen in dieser Stichprobe.

  • Die Samplingverteilung von x1- x2 ist normal.

  • Erfüllen Sie optional die Anforderung, dass die Abweichung zwischen den Gruppen ungefähr gleich ist.

Konfigurieren von Testhypothese mithilfe von t-Test

Verwenden Sie ein einzelnes Dataset als Eingabe. Die spalten, die Sie vergleichen, müssen sich in demselben Dataset befinden.

Wenn Sie Spalten aus verschiedenen Datasets vergleichen müssen, können Sie jede Spalte isolieren, die mithilfe von "Spalten im Dataset auswählen" verglichen werden soll, und diese dann mithilfe von "Spalten hinzufügen" in ein Dataset zusammenführen.

  1. Fügen Sie dem Experiment die Testhypothese mithilfe des T-Test-Moduls hinzu.

    Dieses Modul finden Sie in der Kategorie "Statistische Funktionen " in Studio (klassisch).

  2. Fügen Sie das Dataset hinzu, das die Zu analysierende Spalte oder Spalten enthält.

  3. Entscheiden Sie, welche Art von T-Test für Ihre Daten geeignet ist. Informationen zum Auswählen eines T-Tests finden Sie unter "Auswählen eines T-Tests".

  4. Einzelnes Beispiel: Wenn Sie ein einzelnes Beispiel verwenden, legen Sie diese Parameter fest:

    • Null hypothesisierte μ: Geben Sie den Wert ein, der als null-hypothesisierte Mittelwert für das Beispiel verwendet werden soll. Dadurch wird der erwartete Mittelwert angegeben, mit dem der Stichprobenwert getestet wird.

    • Zielspalte: Verwenden Sie die Spaltenauswahl, um eine einzelne numerische Spalte zum Testen auszuwählen.

    • Hypothesentyp: Wählen Sie einen One-Tail- oder zwei-Tail-Test aus. Standard ist ein zweitseitiger Test. Dies ist der am häufigsten verwendete Testtyp, bei dem die Verteilungen symmetrisch um Null angeordnet sind.

      Die One Tail GT-Option ist für einen 1-Tail-Wert größer als test. Dieser Test gibt mehr Kraft, um einen Effekt in einer Richtung zu erkennen, indem er den Effekt nicht in der anderen Richtung testet.

      Die One Tail LT-Option gibt einen one-tailed less than test.

    • α: Geben Sie einen Konfidenzfaktor an. Dieser Wert wird verwendet, um den Wert von P (die erste Ausgabe des Moduls) auszuwerten. Wenn p niedriger als der Konfidenzfaktor ist, wird die Null-Hypothese abgelehnt.

  5. PairedSamples: Wenn Sie zwei Stichproben aus derselben Population vergleichen, legen Sie die folgenden Parameter fest:

    • Null hypothesisierte μ: Geben Sie einen Wert ein, der den Beispielunterschied zwischen dem Beispielpaar darstellt.

    • Zielspalte: Verwenden Sie die Spaltenauswahl, um die beiden zu testenden numerischen Spalten auszuwählen.

    • Hypothesentyp: Wählen Sie entweder einen One-Tail- oder zwei-Tail-Test aus. Standard ist ein zweitseitiger Test.

    • α: Geben Sie den Konfidenzfaktor an. Dieser Wert wird verwendet, um den Wert von P (die erste Ausgabe des Moduls) auszuwerten,> wenn p niedriger als der Konfidenzfaktor ist, wird die Null-Hypothese abgelehnt.

  6. UnbezahlteSamples: Wenn Sie zwei unbezahlte Beispiele vergleichen, legen Sie die folgenden Parameter fest:

    • Gehen Sie davon aus: Deaktivieren Sie diese Option, wenn die Stichproben aus unterschiedlichen Populationen stammen.
    • Null hypothesisiert μ1: Geben Sie den Mittelwert für die erste Spalte ein.
    • Null hypothesisiert μ2: Geben Sie den Mittelwert für die zweite Spalte ein.
    • Zielspalten: Verwenden Sie die Spaltenauswahl, um zwei numerische Spalten auszuwählen, die getestet werden sollen.
    • Hypothesentyp: Gibt an, ob der Test ein- oder zweiseitiger Test ist. Standard ist ein zweitseitiger Test.
    • α: Geben Sie den Konfidenzfaktor an. Dieser Wert wird verwendet, um den Wert von P (die erste Ausgabe des Moduls) auszuwerten,> wenn p niedriger als der Konfidenzfaktor ist, wird die Null-Hypothese abgelehnt.
  7. Führen Sie das Experiment aus.

Ergebnisse

Die Ausgabe des Moduls ist ein Dataset, das die T-Testergebnisse enthält, und eine Transformation, die Sie optional speichern können, um diese oder ein anderes Dataset mithilfe von Apply Transformation erneut anzuwenden.

Das Dataset der Bewertungen enthält diese Werte, unabhängig vom Typ des verwendeten T-Tests:

  • Eine Wahrscheinlichkeitsbewertung, die die Konfidenz der Nullhypothese angibt
  • Wert, der angibt, ob die Nullhypothese abgelehnt werden sollte

Tipp

Denken Sie daran, dass das Ziel besteht, zu bestimmen, ob Sie die Null-Hypothese ablehnen können. Eine Bewertung von 0 bedeutet nicht, dass Sie die NULL-Hypothese akzeptieren sollten: Es bedeutet, dass Sie nicht genügend Daten haben und weitere Untersuchungen benötigen.

Technische Hinweise

Das Modul benennt die Ausgabespalten automatisch entsprechend den folgenden Konventionen, je nachdem, welche Art von t-Test ausgewählt wurde und ob das Ergebnis zum Akzeptieren oder Verwerfen der Nullhypothese geführt hat.

Bei Eingabespalten mit Namen {0} und {1}dem Modul werden die folgenden Namen erstellt:

Spalten SingleSampleSet PairedSamples UnpairedSamples
Ausgabespalte P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Ausgabespalte RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Berechnung der Ergebnisse

Dieses Modul berechnet und verwendet die Stichprobenstandardabweichung; Daher wird die Formel im Nenner verwendet (n-1) .

Berechnungsergebnisse für einen Einzelbeispieltest

Bei einer einzelnen Stichprobe von Bewertungen, die alle unabhängig von einander sind, und einer Normalverteilung wird die Bewertung wie folgt berechnet:

  1. Verwenden Sie die folgende Eingabe:

    • Eine einzelne Spalte mit Werten aus dem Dataset
    • Die Nullhypothese (H0) Parameter μ0
    • Die durch α angegebene Konfidenzbewertung
  2. Extrahieren Sie die Anzahl der Proben (n).

  3. Berechnen Sie den Mittelwert der Stichprobendaten.

  4. Berechnen Sie die Standardabweichung (s) der Beispieldaten.

  5. Berechnen von T und Freiheitsgraden (df):

    Formula for degrees of freedom

  6. Extrahieren Sie die Wahrscheinlichkeit P aus der Verteilungstabelle T mithilfe von t und df.

Berechnungsergebnisse für einen gekoppelten T-Test

Bei einer abgestimmten Menge von Bewertungen, bei der jedes Paar unabhängig vom anderen ist, und einer Normalverteilung in jeder Menge wird die Bewertung wie folgt berechnet:

  1. Verwenden Sie die folgende Eingabe:

    • Zwei Spalten mit Werten aus dem Dataset
    • Der Parameter d0 (Null-Hypothese) d0
    • Die durch α angegebene Konfidenzbewertung
  2. Extrahieren Sie einige Beispielpaare (n).

  3. Berechnen Sie den Mittelwert der Differenzen der Stichprobendaten:

    formula for mean of differences

  4. Berechnen der Standardabweichung von Unterschieden (sd).

  5. Berechnen sie t und die Freiheitsgrade (df):

    Formula for degrees of freedom df

  6. Extrahieren Sie die Wahrscheinlichkeit (P) aus der Verteilungstabelle (T) mithilfe von t und df.

Berechnungsergebnisse für einen unbezahlten T-Test

Bei zwei unabhängigen Stichproben von Bewertungen mit einer Normalverteilung von Werten in jeder Stichprobe wird die Bewertung wie folgt berechnet:

  1. Verwenden Sie die folgende Eingabe:

    • Ein Dataset mit zwei Spalten mit doubles
    • Der Parameter "Null" (H0) (d0)
    • Die durch α angegebene Konfidenzbewertung
  2. Extrahieren Sie eine Reihe von Beispielen in jeder Gruppe, n1 und n2.

  3. Berechnen Sie den Mittelwert für jede der Stichprobenmengen.

  4. Berechnen Sie die Standardabweichung für jede Gruppe als s1 und s2.

  5. Berechnen von T und Freiheitsgraden (df):

Erfüllen Sie optional die Anforderung, dass die Abweichung zwischen den Gruppen ungefähr gleich ist:

  1. Zusammengefasste Standardabweichung zuerst berechnen:

    formula for pooled standard distribution

  2. Wenn keine Annahme bezüglich der Gleichheit der Abweichung gilt, erfolgt die Berechnung so:

    formula for pooled standard deviation

  3. Extrahieren Sie P aus der Verteilungstabelle (T) mithilfe von t und df.

Berechnen der Null-Hypothese

Die Wahrscheinlichkeit der null-Hypothese, die als P bezeichnet wird, wird wie folgt berechnet:

  • Wenn P < α, legen Sie das Flag "Ablehnen" auf "True" fest.

  • Wenn P ≥ α, legen Sie das Flag "Ablehnen" auf "False" fest.

Erwartete Eingaben

Name type BESCHREIBUNG
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard BESCHREIBUNG
Hypothesis type Any Hypothesis Zweiseitig Student-t-Test-Nullhypothesentyp
Null hypothesisierte μ Any Float 0.0 Beim Ein-Stichproben-t-Test der nullhypothetische Mittelwert der Stichprobe

Beim t-Test mit verbundenen Stichproben die Differenz
Target column(s) Any ColumnSelection Keine Auswahlmuster für Zielspalte(n)
Assume equal variances Any Boolean True Annahme, dass Abweichungen von zwei Stichproben gleich sind

Gilt nur für nicht verbundene Stichproben
Null hypothesisiert μ1 Any Float 0.0 Nullhypothetischer Mittelwert für die erste Stichprobe
Α [0.0;1.0] Float 0.95 Konfidenzfaktor (wenn P kleiner als der Konfidenzfaktor ist, wird die Nullhypothese abgelehnt)

Ausgaben

Name type BESCHREIBUNG
P Datentabelle Eine Wahrscheinlichkeitsbewertung, die die Konfidenz der Nullhypothese angibt
Reject H0 Datentabelle Wert, der angibt, ob die Nullhypothese abgelehnt werden sollte

Ausnahmen

Ausnahme Beschreibung
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0008 Eine Ausnahme tritt auf, wenn der Parameter nicht im Bereich liegt.
Fehler 0017 Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.
Fehler 0020 Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0021 Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0031 Ausnahme tritt auf, wenn die Anzahl der Spalten im Spaltensatz kleiner als erforderlich ist.
Fehler 0032 Ausnahme tritt auf, wenn das Argument keine Zahl ist.
Fehler 0033 Ausnahme tritt auf, wenn das Argument unendlich ist.

Eine Liste der Fehler, die für Studio-Module (klassische) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Statistische Funktionen