Sammanfatta data

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Genererar en grundläggande beskrivande statistikrapport för kolumnerna i en datauppsättning

Kategori: Statistiska funktioner

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Sammanfatta data i Machine Learning Studio (klassisk) för att skapa en uppsättning statistiska standardmått som beskriver varje kolumn i indatatabellen.

Sådan sammanfattande statistik är användbar när du vill förstå egenskaperna för den fullständiga datauppsättningen. Du kan till exempel behöva känna till:

  • Hur många saknade värden finns det i varje kolumn?
  • Hur många unika värden finns det i en funktionskolumn?
  • Vad är medelvärdet och standardavvikelsen för varje kolumn?

Modulen beräknar viktiga poäng för varje kolumn och returnerar en rad sammanfattningsstatistik för varje variabel (datakolumn) som anges som indata.

Tips

Du kanske redan vet att du kan få en kort lista med statistik med hjälp av alternativet Visualisera i Studio (klassisk). Den här visualiseringen skapas dock baserat på några översta antal rader. Däremot beräknar modulen Sammanfatta data sin statistik på alla rader med data.

Så här använder du Sammanfatta data

  1. Lägg till modulen Sammanfatta data i experimentet. Du hittar den här modulen i kategorin Statistiska funktioner i Studio (klassisk).

  2. Anslut den datauppsättning som du vill generera en rapport för.

    Om du bara vill rapportera om vissa kolumner använder du modulen Välj kolumner i datauppsättning för att projicera en delmängd kolumner att arbeta med.

  3. Inga ytterligare parametrar krävs. Som standard analyserar modulen alla kolumner som anges som indata och, beroende på typen av värden i kolumnerna, matar ut en relevant uppsättning statistik enligt beskrivningen i avsnittet Resultat.

  4. Kör experimentet eller högerklicka på modulen och välj Kör valt.

Resultat

Rapporten från modulen kan innehålla följande statistik.

  • Den exakta statistik som genereras beror på kolumndatatypen. Mer information finns i avsnittet Teknisk information.

  • Antagandet görs att instanserna tillhör ett representativt urval av en population. Om du behöver beräkna statistik för en population använder du alternativen i modulen Beräkna elementär statistik , som kan beräkna antingen urvals- eller populationsstatistik.

Kolumnnamn Description
Funktion Namnet på kolumnen
Antal Antal alla rader
Unikt värdeantal Antal unika värden i kolumnen
Antal saknade värden Antal unika värden i kolumnen
Min Lägsta värde i kolumnen
Max Högsta värdet i kolumnen
Menar Medelvärde för alla kolumnvärden
Medelavvikelse Medelvärdesavvikelse för kolumnvärden
Första kvartilen Värde vid den första kvartilen
Medianvärde Mediankolumnvärde
Tredje kvartilen Värde vid tredje kvartilen
Läge Läge för kolumnvärden
Intervall Heltal som representerar antalet värden mellan de högsta och lägsta värdena
Exempelvarians Varians för kolumn; se Anteckning
Exempel på standardavvikelse Standardavvikelse för kolumn; se Anteckning
Snedhet i exemplet Skevhet för kolumn; se Anteckning
Sample Sampling Så här gör du för kolumnen; se Anteckning
P0.5 0,5 % percentil
P1 1 % percentil
P5 5 % percentil
P95 95 % percentil
P99.5 99,5 % percentil

Tips

Mata ut statistikrapporten som en tabelldatamängd, så att du kan använda data i BI-rapporteringsverktyg eller använda värdena som indata till en annan åtgärd i experimentet.

Exempel

Exempel på hur du använder modulen Sammanfatta data i ett experiment finns i Azure AI Gallery:

Teknisk information

  • För numeriska och booleska kolumner kan du mata ut medelvärde, median, läge och standardavvikelse.

  • För icke-numeriska kolumner beräknas endast värdena för Antal, Antal unika värden och Antal saknade värden. För annan statistik returneras ett null-värde.

  • Kolumner som innehåller booleska värden bearbetas med hjälp av följande regler:

    • Vid beräkning av Min tillämpas ett logiskt AND.

    • Vid beräkning av Max tillämpas ett logiskt OR

    • Vid beräkning av intervall kontrollerar modulen först om antalet unika värden i kolumnen är lika med 2.

    • När du beräknar statistik som kräver flyttal, behandlas värdena true som 1.0 och värdena false behandlas som 0,0.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Indatauppsättning

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell En profil för indatauppsättningen som innehåller beskrivande statistik

Undantag

Undantag Description
Fel 0003 Undantaget inträffar om en eller flera indata är null eller tomma.
Fel 0020 Undantaget inträffar om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0021 Undantaget inträffar om antalet rader i vissa datauppsättningar som skickas till modulen är för litet.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Statistikfunktioner
Beräkna elementär statistik