Beräkna elementär statistik

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Beräknar angiven sammanfattningsstatistik för valda datauppsättningskolumner

Kategori: Statistiska funktioner

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Compute Elementär statistik i Machine Learning Studio (klassisk) för att generera en sammanfattningsrapport för din datauppsättning som visar viktig statistik som medelvärde, standardavvikelse och intervall med värden för var och en av de valda kolumnerna.

Den här rapporten är användbar för att analysera den centrala trenden, spridningen och formen på data.

Så här konfigurerar du beräkningsstatistik

  1. Lägg till modulen Compute Elementär statistik i experimentet. Du hittar den här modulen i kategorin Statistikfunktioner i Machine Learning Studio (klassisk).

  2. Anslut en datauppsättning som innehåller de kolumner som du vill analysera.

  3. Klicka på listrutan Metod och välj den typ av värde som du vill beräkna för varje kolumn.

    En fullständig lista över tillgänglig statistik och vad de innebär finns i avsnittet Statistik som stöds.

  4. Som standard beräknas det värde som du valde i listrutan Metod för alla kolumner i datauppsättningen som har en numerisk datatyp. Om en kolumn har värden som förhindrar att värdet beräknas utlöses ett fel och rapporten skapas inte.

    Undvik det här felet genom att använda kolumnväljaren för att välja de numeriska kolumner som du vill ha en rapport för. Alla kolumner som du väljer måste vara numeriska.

  5. Kör experimentet.

Resultat

Den genererade rapporten innehåller namnet på varje kolumn och statistiken som beräknades. Följande tabell visar till exempel statistik som genererats för kolumnen mpg .

DeviationSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Tips

Varje gång du kör Compute-elementär statistik kan den bara generera en enda sammanfattningsstatistik för var och en av de valda kolumnerna. Du kan dock använda modulerna Lägg till kolumner eller Lägg till rader för att sammanslå resultaten till en enskild tabell, som i föregående exempel.

Statistik som stöds

Den här modulen stöder följande beskrivande standardstatistik.

Avvikelse i kvadrat

Beräknar kvadratavvikelsen för kolumnvärdena. Kallas även för kvadratsumman.

Kvadratavvikelse är ett mått på hur långt värdena sprids från medelvärdet.

Geometriskt medelvärde

Beräknar det geometriska medelvärdet för kolumnvärdena.

Det geometriska medelvärdet kan användas för att mäta den centrala trenden för en uppsättning tal. Jämfört med det aritmetiska medelvärdet påverkas det mindre av ett litet antal extrema värden. Det kan också användas för att jämföra mått på olika skalor, eftersom det effektivt normaliserar skalorna för talen som jämförs. Det geometriska medelvärdet används ibland för att uppskatta sammansatta årliga ökningstakter.

Motsvarande funktion i Excel är GEOMEAN.

Betonat medelvärde

Beräknar det betonade medelvärdet för kolumnvärdena.

För att beräkna det bebyggda medelvärdet konverteras alla värden till deras reciprok, och sedan tas medelvärdet från dessa värden. Det bebyggda medelvärdet är det reciprok reciprok för medelvärdet. Om kolumnvärdena är positiva viktas större tal mindre än mindre tal.

Det metriska medelvärdet är alltid mindre än det geometriska medelvärdet, som alltid är mindre än det aritmetiska medelvärdet. Medelvärdet är användbart för medelvärdesvariabler som representerar hastigheter, till exempel hastighet (avstånd över tid) eller försäljning per kvartal.

Motsvarande funktion i Excel är HARMEAN.

Interquartilavstånd

Beräknar skillnaden mellan kvartilen för den första och den sista kvartilen i kolumnvärdena. Kallas även för kvartiilintervallet. När kvartilen faller mellan två tal är kvartilens värde genomsnittet av de två värdena på vardera sida av klippet.

Kvartilen delar in kolumnen med värden i fyra grupper med lika många värden. Därför är ett kvartal av värdena mindre än eller lika med den 25:e percentilen. Tre kvartal av värdena är mindre än eller lika med den 75:e percentilen. Genom att granska kvartilens intervall kan du få en uppfattning om hur brett datavärdena är.

K:te centrala ögonblick

Beräknar det centrala tillfället för kolumnvärdena.

När du beräknar K:te centrala ögonblick måste du också ange Order, vilket innebär värdet k. Värdet för k kan vara mellan 0 och alla tillåtna heltalsvärden, men högre ordervärden är vanligtvis inte meningsfulla.

I beskrivande statistik är en stund i allmänhet ett mått som beskriver formen på en uppsättning punkter. Centrala ögonblick handlar om medelvärdet, som vanligtvis används eftersom de ger bättre information om fördelningens form. En ordning på 2 representerar vanligtvis variansen. en ordning på 4 används för sinten. Den första ordern är medelvärdet. Därför beskriver samlingen av alla ögonblick unikt fördelningen av värden i kolumnen.

Max

Hittar det maximala värdet i kolumnen.

Medelvärde

Beräknar det aritmetiska medelvärdet för kolumnvärdena.

Motsvarande funktion i Excel är AVERAGE.

Medelavvikelse

Beräknar den genomsnittliga absoluta avvikelsen för kolumnvärdena.

Medelvärdet beräknas alltså för kolumnen och avvikelsen beräknas för varje värde i kolumnen. Medelvärdet av de absoluta värdena för de enskilda avvikelsevärdena är medelvärdesavvikelsen.

Den här statistiken visar hur utspridd från medelvärdet din kolumn med tal är.

Median

Returnerar medianvärdet för kolumnvärdena.

Medianvärdet är talet i mitten av en kolumn med tal. Om det finns ett jämnt antal tal i kolumnen är medianvärdet medelvärdet av de två talen i mitten.

Medianen, tillsammans med medelvärdet och läget, är en av tre statistiker som mäter central tendens. Om värdena är symmetriska runt medelvärdet är de tre talen ungefär desamma. Medianen är dock mer robust för extremvärden än medelvärdet.

Medianavvikelse

Beräknar medianavvikelsen för kolumnen.

Medianvärdet beräknas för kolumnen och avvikelsen beräknas för varje värde i kolumnen. Medianvärdet för de absoluta värdena för de enskilda avvikelsevärdena tas.

Medianen för absolut avvikelse kallas även FÖRR och används för att beskriva variationen i ett urval av tal. ANGER HUR utspridd från medelvärdet din kolumn med tal är.

Min

Returnerar det minsta värdet för kolumnvärdena.

Läge

Söker efter alla lägen för kolumnen.

Läget är det värde som visas mest i kolumnen. Om flera värden visas samma antal gånger kan kolumnen ha flera lägen.

Som ett mått på central tendens är läget mer robust för extremvärden än medelvärdet och kan även användas med nominella data.

Standardavvikelse för population

Beräknar populationens standardavvikelse för kolumnvärdena.

Den här statistiken förutsätter att kolumnvärdena representerar hela populationen. Om dina data bara är ett urval av populationen måste du beräkna standardavvikelsen med hjälp av Exempelstandardavvikelse. Men i stora datamängder returnerar de två statistikerna ungefär lika värden.

Standardavvikelsen beräknas som kvadratroten av kolumnavvikelsen. Den här statistiken fångar upp mängden variabilitet i kolumnen.

Populationsvarians

Beräknar populationens varians för kolumnvärdena.

Varians mäter hur mycket en uppsättning tal är utspridd. Om variansen är noll är alla tal likadana.

Den här statistiken förutsätter att kolumnen med värden representerar hela populationen. Om dina data bara innehåller ett urval av värdena bör du beräkna variansen med hjälp av Exempelavvikelse.

Motsvarande Excel är VAR.P.

Produkt

Beräknar produkten av kolumnens element.

Om du vill hämta produkten måste du ha flera tal i kolumnen. Resultatet är inte i sig användbart som en beskrivande statistik, men funktionen är användbar för en mängd andra beräkningar.

Intervall

Beräknar intervallet för kolumnvärdena. Intervallet definieras som det högsta värdet minus minimivärdet

Exempel på sampling

Beräknar exempel på samplar för kolumnvärdena.

Stoppen beskriver formen på fördelningen av värden, det vill säga hur hög eller platt fördelningen av värden är, jämfört med normalfördelningen.

  • Normalfördelningen har ett tal på 0.

  • Höga talvärden indikerar att sannolikhetsvikten är koncentrerad kring antingen en topp eller i slutet av fördelningen.

  • Negativa talvärden indikerar en relativt platt fördelning.

Snedhet i exemplet

Beräknar snedheten i urvalet för kolumnvärdena.

Snedställning beskriver om merparten av värdena finns i mitten, flyttas till vänster eller flyttas till höger. Två fördelningar kan ha samma medelvärde och standardavvikelse, men de formas på ett mycket annorlunda sätt. Du kan använda skevhet och snedform för att beskriva formen.

  • Negativa snedfördelningsvärden innebär att fördelningen är skev åt vänster.

  • 0 anger normalfördelningen.

  • Positiva snedskevhetsvärden innebär att fördelningen är skev till höger.

Exempel på standardavvikelse

Beräknar exemplets standardavvikelse för kolumnvärdena.

Standardavvikelsen för urvalet mäter hur utsped värdena i kolumnen är från medelvärdet. Det representerar det genomsnittliga avståndet mellan värdena för data i uppsättningen och medelvärdet.

Den här statistiken förutsätter att kolumnvärdena representerar ett urval av populationen. Om dina data representerar hela populationen måste du beräkna standardavvikelsen med hjälp av populationens standardavvikelse.

Motsvarande funktion Excel st. DEV.S.

Exempelavvikelse

Beräknar urvalsavvikelsen för kolumnvärdena.

Den här metoden förutsätter att kolumnvärdena representerar ett urval av populationen. Om kolumnen innehåller hela populationen bör du använda populationens standardavvikelse.

Motsvarande funktion Excel är VAR.S.

Sum

Beräknar summan av kolumnvärdena.

Exempel

Följande experiment i den här Azure AI Gallery hur du kan skapa en sammanfattningsrapport som innehåller beskrivande statistik för en hel datamängd. Sammanfattningsrapporten innehåller endast allmän statistik. Du kan dock spara den som en datauppsättning och sedan lägga till mer detaljerad statistik med hjälp av alternativen i Beräkna elementär statistik.

Teknisk information

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Tips

Följande villkor måste uppfyllas när du använder modulen Compute Elementär statistik:

  • Det måste finnas tillräckligt många datapunkter (rader) för att beräkna den valda statistiken. Om du till exempel vill beräkna exempelstandardavvikelsen måste du ha minst två datapunkter. Annars blir resultatet NaN.
  • Indatakolumner måste vara numeriska eller booleska.

Som standard markeras alla numeriska kolumner. Men om några numeriska kolumner markeras som kategoriska kan du få följande fel: " Fel 0056: Kolumn <> med namnkolumnens namn är inte i en tillåten kategori." Du kan åtgärda felet genom att lägga till en instans av modulen Redigera metadata, markera kolumnen med problemet och använda alternativet Ta bort kategoriskt.

Implementeringsdetaljer

Booleska kolumner bearbetas på följande sätt:

  • MIN beräknas som logiskt AND.

  • MAX beräknas som logiskt OR.

  • RANGE kontrollerar om antalet unika värden i kolumnen är lika med 2.

  • Saknade värden ignoreras.

  • För statistik som kräver flyttalsberäkningar, Sant = 1,0 och Falskt = 0,0

Förväntade indata

Namn Typ Description
Datamängd Datatabell Indatauppsättning

Modulparametrar

Name Intervall Typ Standardvärde Description
Metod Lista Metod för elementär statistik Väljer en statistisk metod som ska användas i beräkningar. En lista över värden finns i avsnittet Så här använder du .
Kolumnuppsättning valfri ColumnSelection NumericAll Väljer de kolumner som statistiken ska beräknas för
Beställning >= 1 Integer 3 Anger ett värde för central momentordning (används endast för central central moment)

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Utdatauppsättning

Undantag

Undantag Description
Fel 0017 Undantaget inträffar om en eller flera angivna kolumner har en typ som inte stöds av den aktuella modulen.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Statistikfunktioner
Elementära
Sammanfatta data
A-Z-modullista