Berechnen grundlegender Statistiken

Berechnet angegebene Zusammenfassungsstatistiken für ausgewählte Datasetspalten.

Kategorie: statistische Funktionen

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul " Compute Elementary Statistics " in Azure Machine Learning Studio (klassisch) verwenden, um einen Zusammenfassungs Bericht für das DataSet zu generieren, in dem wichtige Statistiken wie Mittelwert, Standardabweichung und der Wertebereich für die einzelnen ausgewählten Spalten aufgelistet werden.

Dieser Bericht ist nützlich für die Analyse der zentralen Tendenz, der Streuung und der Form von Daten.

Konfigurieren der elementaren Compute-Statistik

  1. Fügen Sie das Modul " Compute Elementary Statistics " zu Ihrem Experiment hinzu. Sie finden dieses Modul in der Kategorie statistische Funktionen in Azure Machine Learning Studio (klassisch).

  2. Verbinden Sie ein DataSet, das die zu analysierenden Spalten enthält.

  3. Klicken Sie auf die Dropdown Liste Methode , und wählen Sie den Typ des Werts aus, den Sie für die einzelnen Spalten berechnen möchten.

    Eine vollständige Liste der verfügbaren Statistiken und deren Bedeutung finden Sie im Abschnitt unterstützte Statistiken .

  4. Standardmäßig wird der Wert, den Sie in der Dropdown Liste Methode ausgewählt haben, für alle Spalten im Dataset berechnet, die einen numerischen Datentyp aufweisen. Wenn eine Spalte Werte aufweist, die die Berechnung des Werts verhindern, wird ein Fehler ausgelöst, und der Bericht wird nicht erstellt.

    Um diesen Fehler zu vermeiden, wählen Sie mithilfe der Spaltenauswahl die numerischen Spalten aus, für die Sie einen Bericht verwenden möchten. Alle Spalten, die Sie auswählen, müssen numerisch sein.

  5. Führen Sie das Experiment aus.

Ergebnisse

Der generierte Bericht enthält den Namen der einzelnen Spalten und die berechnete Statistik. In der folgenden Tabelle werden beispielsweise Statistiken für die Spalte MPG angezeigt.

Deviationsquared (MPG) Max (MPG) Min (MPG)
9674,312 25,21951 13

Tipp

Jedes Mal, wenn Sie die grundlegenden Compute-Statistikenausführen, kann nur eine einzelne Zusammenfassungs Statistik für jede der ausgewählten Spalten generiert werden. Sie können jedoch die Module Add Columns oder Add Rows verwenden, um die Ergebnisse in einer einzigen Tabelle zusammenzuführen, wie im vorherigen Beispiel gezeigt.

Unterstützte Statistiken

Dieses Modul unterstützt die folgenden standardmäßigen beschreibenden Statistiken.

Deviation squared

Berechnet die Quadrat Abweichung der Spaltenwerte. Wird auch als Summe von Quadraten bezeichnet.

Die Quadrat Abweichung ist ein Maß für die Entfernung von Werten aus dem Mittelwert.

Geometric mean

Berechnet das geometrische Mittel der Spaltenwerte.

Der geometrische Mittelwert kann verwendet werden, um die zentrale Tendenz einer Menge von Zahlen zu messen. Im Vergleich zum arithmetischen Mittelwert wird dies weniger von einer geringen Anzahl von Extremwerten beeinflusst. Sie kann auch zum Vergleichen von Messungen in verschiedenen Skalen verwendet werden, da dadurch die Skalen der zu vergleichenden Zahlen effektiv normalisiert werden. Die geometrischen Mittel werden manchmal zum Schätzen der zusammengesetzten jährlichen Wachstumsraten verwendet.

Die äquivalente Funktion in Excel ist GEOMEAN.

Harmonic mean

Berechnet den harmonischen Mittelwert der Spaltenwerte.

Zum Berechnen des harmonischen Mittelwerts werden alle Werte in Ihre gegen Zahlen konvertiert, und dann wird der Mittelwert aus diesen Werten entnommen. Der harmonische Mittelwert ist die gegenseitige des Mittelwert. Wenn die Spaltenwerte positiv sind, werden größere Zahlen kleiner als kleinere Zahlen gewichtet.

Der harmonische Mittelwert ist immer kleiner als der geometrische Mittelwert, der immer kleiner als der arithmetische Mittelwert ist. Der harmonische Mittelwert eignet sich für Durchschnitts Variablen, die Raten darstellen, wie z. b. Geschwindigkeit (Entfernung im Zeitverlauf) oder Umsätze pro Quartal.

Die äquivalente Funktion in Excel ist "HarMean".

Interquartile distance

Berechnet den interquartilunterschied für das erste und das letzte Quartile der Spaltenwerte. Wird auch als Quartil-Bereich bezeichnet. Wenn das Quartil zwischen zwei Zahlen liegt, ist der Quartals Wert der Durchschnitt der beiden Werte auf beiden Seiten des Ausschnitts.

Der Quartil-Wert dividiert die Spalte der Werte in vier Gruppen mit der gleichen Anzahl von Werten. Daher ist ein Quartal der Werte kleiner als oder gleich dem 25. Perzentil. Drei Quartale der Werte sind kleiner als oder gleich dem 75. Perzentil. Durch Überprüfen des Quartals Bereichs können Sie sich einen Überblick darüber verschaffen, wie weit die Datenwerte verteilt sind.

K-th central moment

Berechnet den zentralen Zeitpunkt für die Spaltenwerte.

Beim Berechnen des K-ten mittleren Zeit Werts müssen Sie auch die Reihenfolge angeben, d. h. den Wert k. Der Wert von k kann zwischen 0 und einem beliebigen zulässigen ganzzahligen Wert liegen, auch wenn höhere Reihenfolge Werte in der Regel nicht sinnvoll sind.

Im Allgemeinen ist in beschreibenden Statistiken ein Zeitpunkt ein Measure, das die Form eines Satzes von Punkten beschreibt. In den Mittel wenigen Augenblicken geht es um den Mittelwert, der normalerweise verwendet wird, da Sie bessere Informationen über die Form der Verteilung bereitstellen. Eine Reihenfolge von 2 stellt in der Regel die Varianz dar. für kurum wird eine 4-Reihenfolge verwendet. Der erste Bestell Zeitpunkt ist der Mittelwert. Daher wird die Verteilung der Werte in der Spalte durch die Auflistung aller Augenblicke eindeutig beschrieben.

Max

Sucht den maximalen Wert in der Spalte.

Mittelwert

Berechnet das arithmetische Mittel der Spaltenwerte.

Die äquivalente Funktion in Excel ist der Durchschnitt.

Mean deviation

Berechnet die mittlere absolute Abweichung für die Spaltenwerte.

Das heißt, der Mittelwert wird für die Spalte berechnet, und die Abweichung wird für jeden Wert in der Spalte berechnet. Der Durchschnitt der absoluten Werte der einzelnen Abweichung Werte ist die mittlere Abweichung.

Diese Statistik gibt Aufschluss darüber, wie Sie aus dem Mittelwert Ihrer Spalte mit Zahlen verteilt werden.

Median

Gibt den Median der Spaltenwerte zurück.

Der Median ist die Zahl in der Mitte einer Spalte mit Zahlen. Wenn eine gerade Anzahl von Zahlen in der Spalte vorhanden ist, ist der Median der Durchschnitt der beiden Zahlen in der Mitte.

Der Median ist eine von drei Statistiken, die die zentrale Tendenz messen. Wenn die Werte um den Mittelwert symmetrisch sind, werden die drei Zahlen ungefähr identisch sein. Der Median ist jedoch robuster als der Mittelwert.

Median deviation

Berechnet die Median Abweichung für die Spalte.

Das heißt, der Median wird für die Spalte berechnet, und die Abweichung wird für jeden Wert in der Spalte berechnet. Der Medianwert der absoluten Werte der einzelnen Werte für die Abweichung wird angenommen.

Die mittlere absolute Abweichung wird auch als Mad bezeichnet und wird verwendet, um die Variabilität einer Stichprobe von Zahlen zu beschreiben. Mad gibt Aufschluss darüber, wie Sie aus dem Mittelwert Ihrer Spalte mit Zahlen verteilt werden.

Min

Gibt den minimalen Wert der Spaltenwerte zurück.

Modus

Sucht alle Modi für die Spalte.

Der-Modus ist der Wert, der am häufigsten in der Spalte angezeigt wird. Wenn mehrere Werte gleich oft vorkommen, kann die Spalte über mehrere Modi verfügen.

Als Measure der zentralen Tendenz ist der Modus stabiler als der Mittelwert und kann auch mit nominalen Daten verwendet werden.

Population standard deviation

Berechnet die Standardabweichung der Auffüllung für die Spaltenwerte.

Diese Statistik geht davon aus, dass die Spaltenwerte die gesamte Population darstellen. Wenn es sich bei den Daten nur um eine Stichprobe der Auffüllung handelt, müssen Sie die Standardabweichung mithilfe der Stichproben Standardabweichung berechnen. In großen Datasets geben die beiden Statistiken jedoch ungefähr die gleichen Werte zurück.

Die Standardabweichung wird als Quadratwurzel der Spalten Varianz berechnet. Diese Statistik erfasst die Menge der Variabilität in der Spalte.

Population variance

Berechnet die auffüllungs Varianz für die Spaltenwerte.

Varianz misst, wie viele Zahlen verteilt werden. Wenn die Varianz NULL ist, sind alle Zahlen identisch.

Diese Statistik geht davon aus, dass die Spalte mit Werten die gesamte Population darstellt. Wenn Ihre Daten nur eine Stichprobe der Werte enthalten, sollten Sie die Varianz mithilfe der Stichproben Varianz berechnen.

Die entsprechende Excel-Funktion ist VAR.P .

Product (Produkt)

Berechnet das Produkt der Elemente der Spalte.

Um das Produkt zu erhalten, haben Sie mehrere Zahlen in der Spalte. Das Ergebnis ist nicht als beschreibende Statistik nützlich, aber die Funktion ist für eine Vielzahl anderer Berechnungen nützlich.

Bereich

Berechnet den Bereich der Spaltenwerte. Der Bereich ist als maximaler Wert abzüglich des minimal Werts definiert.

Sample kurtosis

Berechnet das beispielkurum für die Spaltenwerte.

Kurum beschreibt die Form der Verteilung von Werten, d. h., wie die Verteilung der Werte durch lag oder flach ist, verglichen mit der normalen Verteilung.

  • Die normale Verteilung hat einen kurdesis von 0.

  • Hohe kurum-Werte geben an, dass sich die Wahrscheinlichkeits Masse entweder um einen Spitzenwert oder das Ende der Verteilung konzentriert.

  • Negative kurum Werte geben eine relativ flache Verteilung an.

Sample skewness

Berechnet die Beispiel Verzerrung für die Spaltenwerte.

Die Schiefe beschreibt, ob sich der Großteil der Werte in der Mitte befindet, nach links verschoben oder nach rechts verschoben wird. Zwei Verteilungen haben möglicherweise dieselbe Mittel-und Standardabweichung, sind aber sehr unterschiedlich strukturiert. Sie können die Form mit "schrägkeit" und "kurum" bezeichnen.

  • Negative Schiefe Werte bedeutet, dass die Verteilung linksbündig ist.

  • der Wert 0 gibt die normale Verteilung an.

  • Positive Werte der schrägkeit bedeuten, dass die Verteilung rechts verzerrt ist.

Sample standard deviation

Berechnet die Stichproben Standardabweichung für die Spaltenwerte.

Die Standardabweichung der Stichprobe misst, wie die Werte in der Spalte aus dem Mittelwert verteilt werden. Sie stellt den durchschnittlichen Abstand zwischen den Werten der Daten in der Menge und dem Mittelwert dar.

Diese Statistik geht davon aus, dass die Spaltenwerte eine Stichprobe der Population darstellen. Wenn die Daten die gesamte Population darstellen, müssen Sie die Standardabweichung mithilfe der Standardabweichung für die Auffüllung berechnen.

Die entsprechende Excel-Funktion ist St. DEV. S.

Sample variance

Berechnet die Stichproben Varianz für die Spaltenwerte.

Bei dieser Methode wird davon ausgegangen, dass die Spaltenwerte eine Stichprobe der Population darstellen. Wenn die Spalte die gesamte Population enthält, sollten Sie die Standard Varianz Population verwenden.

Die entsprechende Excel-Funktion ist "var. S".

SUM

Berechnet die Summe der Spaltenwerte.

Beispiele

Die folgenden Experimente in der Azure AI Gallery veranschaulichen, wie Sie einen Zusammenfassungs Bericht erstellen können, der beschreibende Statistiken für ein gesamtes DataSet enthält. Der Zusammenfassungs Bericht enthält nur allgemeine Statistiken. Sie können Sie jedoch als DataSet speichern und dann ausführlichere Statistiken hinzufügen. verwenden Sie dazu die Optionen unter Compute Elementary Statistics.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Tipp

Die folgenden Bedingungen müssen erfüllt sein, wenn das Compute Elementary Statistics -Modul verwendet wird:

  • Zum Berechnen der ausgewählten Statistik muss eine ausreichende Anzahl von Datenpunkten (Zeilen) vorhanden sein. Zum Berechnen der Stichproben Standardabweichung sind z. b. mindestens zwei Datenpunkte erforderlich. Andernfalls ist das Ergebnis NaN.
  • Eingabespalten müssen numerisch oder boolesch sein.

Standardmäßig sind alle numerischen Spalten ausgewählt. Wenn jedoch numerische Spalten als kategorisiert gekennzeichnet sind, erhalten Sie möglicherweise die folgende Fehlermeldung: "Fehler 0056: die Spalte mit dem Namen <column name> ist nicht in einer zulässigen Kategorie". Um den Fehler zu beheben, fügen Sie eine Instanz des Moduls Edit Metadata hinzu, wählen Sie die Spalte mit dem Problem aus, und verwenden Sie die Option kategorical entfernen.

Details zur Implementierung

Boolesche Spalten werden folgendermaßen verarbeitet:

  • MIN wird als logisches AND berechnet.

  • MAX wird als logisches OR berechnet.

  • RANGE überprüft, ob die Anzahl der eindeutigen Werte in der Spalte gleich 2 ist.

  • Fehlende Werte werden ignoriert.

  • Bei Statistiken, die Gleitkommaberechnungen erfordern, ist True = 1,0 und False = 0,0.

Erwartete Eingaben

Name type Beschreibung
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard Beschreibung
Methode List Elementary Statistics Method Wählt eine statistische Methode aus, die in Berechnungen verwendet werden soll. Eine Liste der Werte finden Sie unter How to use section.
Spaltensatz any ColumnSelection NumericAll Wählt die Spalten aus, für die die Statistik berechnet werden soll.
Auftrag >=1 Integer 3 Gibt einen Wert für die zentrale Zeitreihen Folge an (wird nur für den tes Central-Moment verwendet).

Output

Name type Beschreibung
Ergebnisdataset Datentabelle Ausgabedataset

Ausnahmen

Ausnahme Beschreibung
Fehler 0017 Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Statistische Funktionen
EM
Daten zusammenfassen
Modulliste von A bis Z