Berechnen grundlegender Statistiken

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Berechnet angegebene Zusammenfassungsstatistiken für ausgewählte Datasetspalten.

Kategorie: Statistische Funktionen

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Compute Elementary Statistics in Machine Learning Studio (klassisch) verwenden, um einen Zusammenfassungsbericht für Ihr Dataset zu generieren, der wichtige Statistiken wie Mittelwert, Standardabweichung und den Wertebereich für jede der ausgewählten Spalten auflistet.

Dieser Bericht ist nützlich für die Analyse der zentralen Tendenz, der Streuung und der Form von Daten.

Konfigurieren von elementaren Computestatistiken

Fügen Sie Ihrem Experiment das Modul Compute Elementary Statistics hinzu. Sie finden dieses Modul in der Kategorie Statistische Funktionen in Machine Learning Studio (klassisch).
Verbinden Ein Dataset, das die Spalten enthält, die Sie analysieren möchten.
Klicken Sie auf die Dropdownliste Methode, und wählen Sie den Typ des Werts aus, den Sie für jede Spalte berechnen möchten.

Eine vollständige Liste der verfügbaren Statistiken und deren Bedeuten finden Sie im Abschnitt Unterstützte Statistiken.
Standardmäßig wird der Wert, den Sie in der Dropdownliste Methode ausgewählt haben, für alle Spalten im Dataset berechnet, die einen numerischen Datentyp haben. Wenn eine Spalte Werte enthält, die die Berechnung des Werts verhindern, wird ein Fehler ausgelöst, und der Bericht wird nicht erstellt.

Um diesen Fehler zu vermeiden, verwenden Sie die Spaltenauswahl, um die numerischen Spalten auszuwählen, für die Sie einen Bericht erstellen möchten. Alle spalten, die Sie auswählen, müssen numerisch sein.
Führen Sie das Experiment aus.

Ergebnisse

Der generierte Bericht enthält den Namen jeder Spalte und die berechnete Statistik. Die folgende Tabelle zeigt z. B. statistiken, die für die mpg-Spalte generiert wurden.

DeviationSquared(mpg)	Max(mpg)	Min(mpg)
9674.312	25.21951	13

Tipp

Bei jeder Ausführung von Compute Elementary Statistics kann für jede der ausgewählten Spalten nur eine einzelne Zusammenfassungsstatistik generiert werden. Sie können jedoch die Module Add Columns (Spalten hinzufügen) oder Add Rows (Zeilen hinzufügen) verwenden, um die Ergebnisse wie im vorherigen Beispiel zu einer einzelnen Tabelle zusammen zu bringen.

Unterstützte Statistiken

Dieses Modul unterstützt die folgenden beschreibenden Standardstatistiken.

Deviation squared

Berechnet die quadratische Abweichung der Spaltenwerte. Wird auch als Summe von Quadraten bezeichnet.

Die quadratische Abweichung ist ein Maß für die Verteilung der Werte vom Mittelwert.

Geometric mean

Berechnet das geometrische Mittel der Spaltenwerte.

Das geometrische Mittel kann verwendet werden, um die zentrale Neigung einer Reihe von Zahlen zu messen. Im Vergleich zum arithmetischen Mittel ist es weniger von einer kleinen Anzahl extremer Werte betroffen. Sie kann auch verwendet werden, um Messungen auf verschiedenen Skalen zu vergleichen, da die Skalierung der verglichenen Zahlen effektiv normalisiert wird. Die geometrischen Mittel werden manchmal verwendet, um zusammengesetzte jährliche Zuwachsraten zu schätzen.

Die entsprechende Funktion in Excel geomean.

Harmonic mean

Berechnet den mittelwert der Spaltenwerte .

Um den Mittelwert des Gerüsts zu berechnen, werden alle Werte in ihre Reziproken konvertiert, und dann wird der Mittelwert dieser Werte verwendet. Der 1:0-Mittelwert ist der Kehrer dieses Mittelwerts. Wenn die Spaltenwerte positiv sind, werden größere Zahlen kleiner gewichtet als kleinere Zahlen.

Das mittelige Mittel ist immer kleiner als das geometrische Mittel, das immer kleiner als das arithmetische Mittel ist. Der durchschnittliche Mittelwert ist nützlich für Mittelwertvariablen, die Raten darstellen, z. B. Geschwindigkeit (Entfernung im Zeitabstand) oder Verkäufe pro Quartal.

Die entsprechende Funktion in Excel ist HARMEAN.

Interquartile distance

Berechnet die Interquartildifferenz für das erste und das letzte Quartil der Spaltenwerte. Wird auch als Quartilbereich bezeichnet. Wenn das Quartil zwischen zwei Zahlen fällt, ist der Quartilwert der Durchschnitt der beiden Werte auf beiden Seiten des Schnitts.

Der Quartilwert teilt die Wertespalte in vier Gruppen mit einer gleichen Anzahl von Werten auf. Daher ist ein Quartal der Werte kleiner oder gleich dem 25. Zentil. Drei Quartale der Werte sind kleiner oder gleich dem 75. Zentil. Durch Überprüfen des Quartilbereichs erhalten Sie einen Überblick darüber, wie weit die Datenwerte verteilt sind.

K-th central moment

Berechnet den K-th-Zentralen Moment für die Spaltenwerte.

Bei der Berechnung des K-th-Mittelpunkts müssen Sie auch die Reihenfolge angeben, d. h. den Wert von k. Der Wert von k kann zwischen 0 und einem beliebigen zulässigen ganzzahligen Wert liegen, obwohl höhere Werte in der Regel nicht sinnvoll sind.

In der Regel ist ein Moment in beschreibenden Statistiken ein Measure, das die Form einer Reihe von Punkten beschreibt. Zentrale Augenblicke sind Momenten über den Mittelwert, die normalerweise verwendet werden, da sie bessere Informationen über die Form der Verteilung liefern. Eine Reihenfolge von 2 stellt normalerweise die Varianz dar. Eine Reihenfolge von 4 wird für Dies verwendet. Der erste Reihenfolgenmoment ist der Mittelwert. Daher beschreibt die Auflistung aller Augenblicke eindeutig die Verteilung der Werte in der Spalte.

Max

Sucht den Maximalwert in der Spalte.

Mittelwert

Berechnet das arithmetische Mittel der Spaltenwerte.

Die entsprechende Funktion in Excel ist AVERAGE.

Mean deviation

Berechnet die mittlere absolute Abweichung für die Spaltenwerte.

Das heißt, der Mittelwert wird für die Spalte berechnet, und die Abweichung wird für jeden Wert in der Spalte berechnet. Der Durchschnitt der absoluten Werte der einzelnen Abweichungswerte ist die mittlere Abweichung.

Diese Statistik gibt auf, wie weit die Zahlenspalte vom Mittelwert verteilt ist.

Median

Gibt den Median der Spaltenwerte zurück.

Der Median ist die Zahl in der Mitte einer Zahlenspalte. Wenn die Spalte eine gleichmäßige Anzahl von Zahlen enthält, ist der Median der Durchschnitt der beiden Zahlen in der Mitte.

Der Median ist zusammen mit dem Mittelwert und dem Modus eine von drei Statistiken, die die zentrale Neigung misst. Wenn die Werte symmetrisch um den Mittelwert herum sind, sind die drei Zahlen ungefähr gleich. Der Median ist jedoch robuster für Ausreißer als der Mittelwert.

Median deviation

Berechnet die mittlere Abweichung für die Spalte.

Das heißt, der Median wird für die Spalte berechnet, und die Abweichung wird für jeden Wert in der Spalte berechnet. Der Medianwert der absoluten Werte der einzelnen Abweichungswerte wird verwendet.

Die mittlere absolute Abweichung wird auch als MAD bezeichnet und wird verwendet, um die Variabilität einer Stichprobe von Zahlen zu beschreiben. ÜBERWWenn Sie erfahren, wie weit vom Mittelwert ihrer Zahlenspalte abgesehen ist.

Min

Gibt den Mindestwert der Spaltenwerte zurück.

Mode

Sucht alle Modi für die Spalte.

Der Modus ist der Wert, der in der Spalte am häufigsten angezeigt wird. Wenn mehrere Werte so oft angezeigt werden, kann die Spalte mehrere Modi haben.

Als Maß für die zentrale Neigung ist der Modus robuster für Ausreißer als der Mittelwert und kann auch mit nominalen Daten verwendet werden.

Population standard deviation

Berechnet die Standardabweichung der Grundzahl für die Spaltenwerte.

Bei dieser Statistik wird davon ausgegangen, dass die Spaltenwerte die gesamte Grundzahl darstellen. Wenn Es sich bei Ihren Daten nur um eine Stichprobe der Population handelt, müssen Sie die Standardabweichung mit sample standard deviation berechnen. In großen Datasets geben die beiden Statistiken jedoch ungefähr gleiche Werte zurück.

Die Standardabweichung wird als Quadratwurzel der Spaltenvarianz berechnet. Diese Statistik erfasst die Variabilität in der Spalte.

Population variance

Berechnet die Varianz der Grundzahl für die Spaltenwerte.

Varianz misst, wie viele Zahlen verteilt sind. Wenn varianz 0 (null) ist, sind alle Zahlen identisch.

Bei dieser Statistik wird davon ausgegangen, dass die Wertespalte die gesamte Grundzahl darstellt. Wenn Ihre Daten nur eine Stichprobe der Werte enthalten, sollten Sie die Varianz mithilfe von Stichprobenvarianz berechnen.

Die entsprechende Excel ist VAR.P.

Produkt

Berechnet das Produkt der Elemente der Spalte.

Um das Produkt zu erhalten, geben Sie alle Zahlen in der Spalte ein. Das Ergebnis ist an sich nicht als beschreibende Statistik nützlich, aber die Funktion ist für eine Vielzahl anderer Berechnungen nützlich.

Range

Berechnet den Bereich der Spaltenwerte. Der Bereich wird als maximaler Wert abzüglich des Mindestwerts definiert.

Sample kurtosis

Berechnet die Beispiel-Spalte für die Spaltenwerte.

In der Hierarchie wird die Form der Verteilung von Werten beschrieben, d. &a. wie hoch oder flach die Verteilung von Werten im Vergleich zur Normalverteilung ist.

Die Normalverteilung ist 0 (0).
Hohe Geschwenkwerte geben an, dass sich die Wahrscheinlichkeitslast entweder auf einen Spitzenwert oder auf das Ende der Verteilung konzentriert.
Negative Negative -Werte weisen auf eine relativ flache Verteilung hin.

Sample skewness

Berechnet die Stichprobensyntität für die Spaltenwerte.

Skew beschreibt, ob sich der Großteil der Werte in der Mitte befindet, nach links verschoben oder nach rechts verschoben wird. Zwei Verteilungen können die gleiche Mittlere und Standardabweichung haben, sind jedoch sehr unterschiedlich gestaltet. Sie können schiefe Und-Zeichen verwenden, um die Form zu charakterisieren.

Negative Skew-Werte bedeutet, dass die Verteilung links verfeinert ist.
0 steht für die normale Verteilung.
Positive Schiefewerte bedeuten, dass die Verteilung nach rechts verzerrt ist.

Sample standard deviation

Berechnet die Stichprobenstandardabweichung für die Spaltenwerte.

Die Standardabweichung der Stichprobe misst, wie die Werte in der Spalte vom Mittelwert abweichen. Sie stellt den durchschnittlichen Abstand zwischen den Werten der Daten in der Menge und dem Mittelwert dar.

Bei dieser Statistik wird davon ausgegangen, dass die Spaltenwerte eine Stichprobe der Grundzahl darstellen. Wenn Ihre Daten die gesamte Population repräsentieren, müssen Sie die Standardabweichung mithilfe der Standardabweichung der Population berechnen.

Die entsprechende Excel ist ST. DEV.S.

Sample variance

Berechnet die Stichprobenvarianz für die Spaltenwerte.

Bei dieser Methode wird davon ausgegangen, dass die Spaltenwerte eine Stichprobe der Grundzahl darstellen. Wenn die Spalte die gesamte Grundzahl enthält, sollten Sie varianz des Population-Standards verwenden.

Die entsprechende Excel ist VAR.S.

Sum

Berechnet die Summe der Spaltenwerte.

Beispiele

Die folgenden Experimente im Azure KI-Katalog veranschaulichen , wie Sie einen Zusammenfassungsbericht erstellen können, der beschreibende Statistiken für ein gesamtes Dataset enthält. Der Zusammenfassungsbericht enthält nur allgemeine Statistiken. Sie können es jedoch als Dataset speichern und dann ausführlichere Statistiken hinzufügen, indem Sie die Optionen unter Compute Elementary Statistics (Elementare Statistiken berechnen) verwenden.

Dataset aus UCI herunterladen: Das Modul Summarize Data wird verwendet, um einen Zusammenfassungsbericht für alle Spalten im Dataset zu generieren.
Datasetverarbeitung und -analyse: Das Modul Summarize Data wird verwendet, um einen Zusammenfassungsbericht für alle Spalten im Dataset zu generieren.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Tipp

Die folgenden Bedingungen müssen erfüllt sein, wenn Sie das Modul Compute Elementary Statistics verwenden:

Es muss eine ausreichende Anzahl von Datenpunkten (Zeilen) vorhanden sein, um die ausgewählte Statistik zu berechnen. Zum Berechnen von Beispielstandardabweichungen sind beispielsweise mindestens zwei Datenpunkte erforderlich. andernfalls ist das Ergebnis NaN.
Eingabespalten müssen numerisch oder boolesch sein.

Standardmäßig sind alle numerischen Spalten ausgewählt. Wenn numerische Spalten jedoch als kategorisch gekennzeichnet sind, erhalten Sie möglicherweise den folgenden Fehler: "Fehler 0056: <> Spalte mit Name Spaltenname befindet sich nicht in einer zulässigen Kategorie." Um den Fehler zu beheben, fügen Sie eine Instanz des Moduls Edit Metadata (Metadaten bearbeiten) hinzu, wählen Sie die Spalte mit dem Problem aus, und verwenden Sie die Option Remove categorical (Kategorie entfernen).

Details zur Implementierung

Boolesche Spalten werden folgendermaßen verarbeitet:

MIN wird als logisches AND berechnet.
MAX wird als logisches OR berechnet.
RANGE überprüft, ob die Anzahl der eindeutigen Werte in der Spalte gleich 2 ist.
Fehlende Werte werden ignoriert.
Bei Statistiken, die Gleitkommaberechnungen erfordern, ist True = 1,0 und False = 0,0.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Eingabedataset

Modulparameter

Name	Range	type	Standard	Beschreibung
Methode	Liste	Elementary Statistics Method		Wählt eine statistische Methode aus, die in Berechnungen verwendet werden soll. Eine Liste der Werte finden Sie im Abschnitt Verwenden.
Spaltensatz	any	ColumnSelection	NumericAll	Wählt die Spalten aus, für die die Statistik berechnet werden soll.
Auftrag	>=1	Integer	3	Gibt einen Wert für die Reihenfolge des zentralen Moments an (wird nur für den kth zentralen Moment verwendet)

Output

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Ausgabedataset

Ausnahmen

Ausnahme	Beschreibung
Fehler 0017	Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Statistische Funktionen
Elementar
Zusammenfassen von Daten
Modulliste von A bis Z

Berechnen grundlegender Statistiken

Modulübersicht

Konfigurieren von elementaren Computestatistiken

Ergebnisse

Unterstützte Statistiken

Deviation squared

Geometric mean

Harmonic mean

Interquartile distance

K-th central moment

Max

Mittelwert

Mean deviation

Median

Median deviation

Min

Mode

Population standard deviation

Population variance

Produkt

Range

Sample kurtosis

Sample skewness

Sample standard deviation

Sample variance

Sum

Beispiele

Technische Hinweise

Details zur Implementierung

Erwartete Eingaben

Modulparameter

Output

Ausnahmen

Siehe auch

Zusätzliche Ressourcen