Elementaire statistieken berekenen

Hiermee worden opgegeven samenvattings statistieken voor geselecteerde gegevensset-kolommen berekend

Categorie: statistische functies

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module Compute-elementele statistieken in azure machine learning Studio (klassiek) kunt gebruiken om een samenvattings rapport voor uw gegevensset te genereren met een overzicht van de belangrijkste statistieken, zoals gemiddelde, standaard afwijking en het waarden bereik voor elk van de geselecteerde kolommen.

Dit rapport is nuttig voor het analyseren van de centrale tendens, de sprei ding en de vorm van gegevens.

Berekende element-statistieken configureren

  1. Voeg de module Compute-elementele statistieken toe aan uw experiment. U kunt deze module vinden in de categorie statistische functies in azure machine learning Studio (klassiek).

  2. Verbind een gegevensset die de kolommen bevat die u wilt analyseren.

  3. Klik op de vervolg keuzelijst methode en kies het type waarde dat u wilt berekenen voor elke kolom.

    Zie de sectie ondersteunde statistieken voor een volledige lijst met beschik bare statistieken en wat ze betekenen.

  4. Standaard wordt de waarde die u hebt geselecteerd in de vervolg keuzelijst methode berekend voor alle kolommen in de gegevensset die een numeriek gegevens type hebben. Als een kolom waarden bevat die verhinderen dat de waarde wordt berekend, treedt er een fout op en wordt het rapport niet gemaakt.

    Als u deze fout wilt voor komen, gebruikt u de kolom kiezer om de numerieke kolommen te kiezen waarvoor u een rapport wilt. Alle kolommen die u kiest, moeten numeriek zijn.

  5. Voer het experiment uit.

Resultaten

Het gegenereerde rapport bevat de naam van elke kolom en de statistieken die zijn berekend. De volgende tabel bevat bijvoorbeeld statistieken die zijn gegenereerd voor de kolom MPG .

DeviationSquared (MPG) Max (MPG) Min (MPG)
9674,312 25,21951 13

Tip

Telkens wanneer u Compute-elementaire statistiekenuitvoert, kan er slechts één samenvattings statistiek worden gegenereerd voor elk van de geselecteerde kolommen. U kunt echter de modules kolommen toevoegen of rijen toevoegen gebruiken om de resultaten samen te voegen in één tabel, zoals in het voor gaande voor beeld.

Ondersteunde statistieken

Deze module biedt ondersteuning voor de volgende standaard beschrijvende statistieken.

Afwijking in kwadraat

Berekent de kwadratische afwijking van de kolom waarden. Dit wordt ook wel de som van de kwadraten genoemd.

Kwadratische afwijking is een meting van de mate waarin de waarden uit het gemiddelde worden verdeeld.

Meet kundige gemiddelde

Berekent het meet kundige gemiddelde van de kolom waarden.

Het meet kundige gemiddelde kan worden gebruikt om de centrale tendens van een set getallen te meten. Vergeleken met het reken kundige gemiddelde wordt het minder beïnvloed door een klein aantal extreme waarden. Het kan ook worden gebruikt voor het vergelijken van metingen op verschillende schalen, omdat het effectief is om de schalen van de getallen die worden vergeleken te normaliseren. De geometrische middelen worden soms gebruikt voor het ramen van de samengestelde jaarlijkse groei snelheid.

De equivalente functie in Excel is GeoMean.

Harmonische gemiddelde

Berekent het harmonische gemiddelde van de kolom waarden.

Om het harmonische gemiddelde te berekenen, worden alle waarden geconverteerd naar hun wederkerigheid, en vervolgens wordt het gemiddelde van deze waarden opgehaald. Het harmonische gemiddelde is de reciproque waarde van dat gemiddelde. Als de kolom waarden positief zijn, worden grotere getallen kleiner dan kleinere getallen.

Het harmonische gemiddelde is altijd kleiner dan het meet kundige gemiddelde, wat altijd kleiner is dan het reken kundige gemiddelde. Het harmonische gemiddelde is handig voor het berekenen van variabelen die tarieven vertegenwoordigen, zoals snelheid (afstand gedurende een bepaalde periode) of omzet per kwar taal.

De equivalente functie in Excel is HARMEAN.

Interkwartiel-afstand

Berekent het interkwartiel-verschil voor het eerste en het laatste kwartiel van de kolom waarden. Ook wel het kwartiel-bereikgenoemd. Wanneer het kwartiel tussen twee getallen ligt, is de kwartiel waarde het gemiddelde van de twee waarden aan beide zijden van de cut.

Met de kwartiel waarde wordt de kolom met waarden verdeeld over vier groepen met een gelijk aantal waarden. Daarom is een kwart van de waarden kleiner dan of gelijk aan het 25e percentiel. Drie kwart van de waarden zijn kleiner dan of gelijk aan het 75e percentiel. Door het kwartiel-bereik te bekijken, kunt u een idee krijgen van hoe ver de gegevens waarden worden verdeeld.

Centraal moment van de K

Hiermee berekent u het Centraal tijdstip van de kolom waarden.

Bij het berekenen van het centraal tijdstip van de K moet u ook de volg ordeopgeven, wat de waarde K aangeeft. De waarde van k kan variëren van 0 tot een wille keurige waarde voor een geheel getal, hoewel hogere order waarden doorgaans niet zinvol zijn.

Over het algemeen is een moment in beschrijvende statistieken een meting die de vorm van een set punten beschrijft. Over de gemiddelde tijd, die meestal worden gebruikt, is het een goed idee om een betere informatie over de shape van de distributie te krijgen. De volg orde van 2 duidt doorgaans op de afwijking; Er wordt een volg orde van 4 gebruikt voor de kurtosis. Het eerste bestel tijdstip is het gemiddelde. De verzameling van alle seconden beschrijft daarom een unieke beschrijving van de distributie van waarden in de kolom.

Max

Hiermee zoekt u de maximum waarde in de kolom.

Gemiddeld

Berekent het reken kundige gemiddelde van de kolom waarden.

De equivalente functie in Excel is gemiddeld.

Gemiddelde afwijking

Berekent de gemiddelde absolute afwijking voor de kolom waarden.

Dat wil zeggen, het gemiddelde wordt berekend voor de kolom en de afwijking berekend voor elke waarde in de kolom. Het gemiddelde van de absolute waarden van de afzonderlijke afwijkingen waarden is de gemiddelde afwijking.

Met deze statistiek krijgt u een duidelijk deel van het gemiddelde van de kolom met getallen.

Mediaan

Retourneert de mediaan van de kolom waarden.

De mediaan is het getal in het midden van een kolom met getallen. Als er een even aantal getallen in de kolom staat, is de mediaan het gemiddelde van de twee getallen in het midden.

De mediaan, samen met het gemiddelde en de modus, is een van de drie statistieken waarmee de centrale tendens wordt gemeten. Als de waarden symmetrisch rond het gemiddelde zijn, hebben de drie getallen ongeveer hetzelfde. De mediaan is echter robuuster voor uitbijters dan het gemiddelde.

Mediaan afwijking

Berekent de mediaan afwijking voor de kolom.

Dat wil zeggen dat de mediaan voor de kolom wordt berekend en dat de afwijking voor elke waarde in de kolom wordt berekend. De mediaan waarde van de absolute waarden van de afzonderlijke afwijkingen waarden wordt gemaakt.

De mediaan absolute afwijking staat ook bekend als MAD, en wordt gebruikt om de variabiliteit van een voor beeld van getallen te beschrijven. MAD vertelt u hoe verdeeld uit het gemiddelde van de kolom met getallen.

Min

Retourneert de minimum waarde van de kolom waarden.

Modus

Hiermee worden alle modi voor de kolom gevonden.

De modus is de waarde die het meest voor komt in de kolom. Als verschillende waarden hetzelfde aantal keren worden weer gegeven, kan de kolom meerdere modi hebben.

Als meet waarde voor de centrale tendens is de modus robuuster voor uitbijters dan het gemiddelde en kan er ook worden gebruikt met nominale gegevens.

Standaard deviatie van populatie

Berekent de standaard deviatie van de populatie voor de kolom waarden.

Deze statistische waarde veronderstelt dat de kolom waarden de volledige populatie vertegenwoordigen. Als uw gegevens alleen een steek proef van de populatie zijn, moet u de standaard afwijking berekenen door gebruik te maken van de standaard deviatie. In grote gegevens sets geven de twee statistieken echter ongeveer gelijke waarden als resultaat.

De standaard afwijking wordt berekend als de vierkantswortel van de variantie van de kolom. Met deze statistische waarde wordt de hoeveelheid variabiliteit in de kolom vastgelegd.

Afwijking van populatie

Berekent de variantie van de populatie voor de kolom waarden.

Afwijking meet het aantal van een set getallen. Als de variantie nul is, zijn alle getallen hetzelfde.

Deze statistische waarde veronderstelt dat de kolom met waarden de volledige populatie vertegenwoordigt. Als uw gegevens alleen een voor beeld van de waarden bevatten, berekent u de variantie door voorbeeld variantiete gebruiken.

De overeenkomstige Excel-functie is VAR.P .

Product

Hiermee wordt het product van de elementen van de kolom berekend.

Als u het product wilt ophalen, hebt u meerdere getallen in de kolom. Het resultaat is niet op zichzelf nuttig als beschrijvende statistiek, maar de functie is handig voor diverse andere berekeningen.

Bereik

Hiermee wordt het bereik van de kolom waarden berekend. Het bereik wordt gedefinieerd als de maximum waarde min de minimale waarde

Voor beeld van kurtosis

Berekent de voor beeld-kurtosis voor de kolom waarden.

Kurtosis Hiermee wordt de vorm van de verdeling van waarden beschreven, dat wil zeggen hoe piek of een vlakke verdeling van waarden is, vergeleken met de normale distributie.

  • De normale verdeling heeft een kurtosis van 0.

  • Hoge kurtosise waarden geven aan dat de waarschijnlijkheids massa is geconcentreerd rond een piek of aan de staart van de distributie.

  • Negatieve kurtosise waarden geven een relatief vlakke verdeling aan.

Voor beeld scheefheid

Hiermee wordt de steek proef voor de scheefheid van de kolom waarden berekend.

Scheefheid beschrijft of het meren deel van de waarden zich in het midden bevindt, naar links verschuift of naar rechts verschuift. Twee distributies hebben mogelijk hetzelfde gemiddelde en de standaard afwijking, maar hebben een andere vorm. U kunt scheefheid en kurtosis gebruiken voor het karakteriseren van de vorm.

  • Negatieve scheefe waarden betekent dat de verdeling naar links wordt schuingetrokken.

  • 0 geeft de normale verdeling aan.

  • Positieve waarden voor scheefheid betekent dat de verdeling naar rechts wordt schuingetrokken.

Standaard deviatie voor beeld

Berekent de standaard afwijking voor de kolom waarden.

De standaard afwijking van de steek proeven is het gemiddelde van de waarden in de kolom. Het vertegenwoordigt de gemiddelde afstand tussen de waarden van de gegevens in de set en het gemiddelde.

Deze statistische waarde veronderstelt dat de kolom waarden een steek proef van de populatie vertegenwoordigen. Als uw gegevens de gehele populatie vertegenwoordigen, moet u de standaard afwijking berekenen met behulp van de standaard deviatievan de populatie.

De overeenkomstige Excel-functie is ST. DEV. S.

Voorbeeld afwijking

Berekent de voorbeeld variantie voor de kolom waarden.

Bij deze methode wordt ervan uitgegaan dat de kolom waarden een voor beeld van de populatie vertegenwoordigen. Als de kolom de volledige populatie bevat, moet u de standaard afwijking van populatiegebruiken.

De overeenkomstige Excel-functie is VAR. S.

Sum

Berekent de som van de kolom waarden.

Voorbeelden

De volgende experimenten in de Azure AI Gallery laten zien hoe u een samenvattings rapport kunt maken dat beschrijvende statistieken bevat voor een volledige gegevensset. Het overzichts rapport bevat alleen algemene statistieken. u kunt het echter opslaan als een gegevensset en vervolgens gedetailleerdere statistieken toevoegen met behulp van de opties in Compute-elementaire statistieken.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Tip

Aan de volgende voor waarden moet worden voldaan wanneer u de module Compute-elementele statistieken gebruikt:

  • Er moet een voldoende aantal gegevens punten (rijen) zijn om de geselecteerde statistieken te berekenen. Voor het berekenen van de standaard afwijking van de voor beelden zijn bijvoorbeeld ten minste twee gegevens punten nodig. anders is het resultaat NaN.
  • Invoer kolommen moeten numeriek of Booleaans zijn.

Standaard worden alle numerieke kolommen geselecteerd. Als er echter numerieke kolommen zijn gemarkeerd als categorische, wordt mogelijk de volgende fout weer geven: ' fout 0056: kolom met naam <column name> heeft geen toegestane categorie. ' Als u de fout wilt corrigeren, voegt u een exemplaar van de module meta data bewerken toe, selecteert u de kolom met het probleem en gebruikt u de optie categorische verwijderen.

Implementatie Details

Booleaanse kolommen worden als volgt verwerkt:

  • MIN wordt berekend als logische en.

  • MAXIMUM wordt berekend als logische of.

  • BEREIK controleert of het aantal unieke waarden in de kolom gelijk is aan 2.

  • Ontbrekende waarden worden genegeerd.

  • Voor statistieken waarvoor drijvende-komma berekeningen zijn vereist, True = 1,0 en False = 0,0

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Methode Lijst Elementaire statistieken methode Hiermee selecteert u een statistische methode die in berekeningen moet worden gebruikt. Zie de sectie gebruiken voor een lijst met waarden.
Kolomset alle ColumnSelection Numeriek Hiermee worden de kolommen geselecteerd waarvoor de statistieken moeten worden berekend
Bestellen >= 1 Geheel getal 3 Hiermee geeft u een waarde op voor de Central-tijd volgorde (alleen gebruikt voor het KTH Central-tijdstip)

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Uitvoer gegevensset

Uitzonderingen

Uitzondering Beschrijving
Fout 0017 Uitzonde ring treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Statistische functies
Elementary
Gegevens samenvatten
Module lijst a-Z