Sammanfatta data

Artikel
05/06/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Genererar en grundläggande beskrivande statistikrapport för kolumnerna i en datauppsättning

Kategori: Statistiska funktioner

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Sammanfatta data i Machine Learning Studio (klassisk) för att skapa en uppsättning statistiska standardmått som beskriver varje kolumn i indatatabellen.

Sådan sammanfattande statistik är användbar när du vill förstå egenskaperna för den fullständiga datauppsättningen. Du kan till exempel behöva känna till:

Hur många saknade värden finns det i varje kolumn?
Hur många unika värden finns det i en funktionskolumn?
Vad är medelvärdet och standardavvikelsen för varje kolumn?

Modulen beräknar viktiga poäng för varje kolumn och returnerar en rad sammanfattningsstatistik för varje variabel (datakolumn) som anges som indata.

Tips

Du kanske redan vet att du kan få en kort lista med statistik med hjälp av alternativet Visualisera i Studio (klassisk). Den här visualiseringen skapas dock baserat på några översta antal rader. Däremot beräknar modulen Sammanfatta data sin statistik på alla rader med data.

Så här använder du Sammanfatta data

Lägg till modulen Sammanfatta data i experimentet. Du hittar den här modulen i kategorin Statistiska funktioner i Studio (klassisk).
Anslut den datauppsättning som du vill generera en rapport för.

Om du bara vill rapportera om vissa kolumner använder du modulen Välj kolumner i datauppsättning för att projicera en delmängd kolumner att arbeta med.
Inga ytterligare parametrar krävs. Som standard analyserar modulen alla kolumner som anges som indata och, beroende på typen av värden i kolumnerna, matar ut en relevant uppsättning statistik enligt beskrivningen i avsnittet Resultat.
Kör experimentet eller högerklicka på modulen och välj Kör valt.

Resultat

Rapporten från modulen kan innehålla följande statistik.

Den exakta statistik som genereras beror på kolumndatatypen. Mer information finns i avsnittet Teknisk information.
Antagandet görs att instanserna tillhör ett representativt urval av en population. Om du behöver beräkna statistik för en population använder du alternativen i modulen Beräkna elementär statistik , som kan beräkna antingen urvals- eller populationsstatistik.

Kolumnnamn	Description
Funktion	Namnet på kolumnen
Antal	Antal alla rader
Unikt värdeantal	Antal unika värden i kolumnen
Antal saknade värden	Antal unika värden i kolumnen
Min	Lägsta värde i kolumnen
Max	Högsta värdet i kolumnen
Menar	Medelvärde för alla kolumnvärden
Medelavvikelse	Medelvärdesavvikelse för kolumnvärden
Första kvartilen	Värde vid den första kvartilen
Medianvärde	Mediankolumnvärde
Tredje kvartilen	Värde vid tredje kvartilen
Läge	Läge för kolumnvärden
Intervall	Heltal som representerar antalet värden mellan de högsta och lägsta värdena
Exempelvarians	Varians för kolumn; se Anteckning
Exempel på standardavvikelse	Standardavvikelse för kolumn; se Anteckning
Snedhet i exemplet	Skevhet för kolumn; se Anteckning
Sample Sampling	Så här gör du för kolumnen; se Anteckning
P0.5	0,5 % percentil
P1	1 % percentil
P5	5 % percentil
P95	95 % percentil
P99.5	99,5 % percentil

Tips

Mata ut statistikrapporten som en tabelldatamängd, så att du kan använda data i BI-rapporteringsverktyg eller använda värdena som indata till en annan åtgärd i experimentet.

Exempel

Exempel på hur du använder modulen Sammanfatta data i ett experiment finns i Azure AI Gallery:

Ladda ned datauppsättning från UCI: Läser en datauppsättning i CSV-format med hjälp av dess URL i UCI Machine Learning Repository och genererar viss grundläggande statistik om datauppsättningen.
Datamängdsbearbetning och -analys: Läser in datauppsättningen till arbetsytan, ändrar kolumnnamn och lägger till metadata.
Förutsägelse av elevprestanda: Läser data som lagras i TSV-format från Azure Blob Storage.

Teknisk information

För numeriska och booleska kolumner kan du mata ut medelvärde, median, läge och standardavvikelse.
För icke-numeriska kolumner beräknas endast värdena för Antal, Antal unika värden och Antal saknade värden. För annan statistik returneras ett null-värde.
Kolumner som innehåller booleska värden bearbetas med hjälp av följande regler:
- Vid beräkning av Min tillämpas ett logiskt AND.
- Vid beräkning av Max tillämpas ett logiskt OR
- Vid beräkning av intervall kontrollerar modulen först om antalet unika värden i kolumnen är lika med 2.
- När du beräknar statistik som kräver flyttal, behandlas värdena true som 1.0 och värdena false behandlas som 0,0.

Förväntade indata

Namn	Typ	Description
Datamängd	Datatabell	Indatauppsättning

Utdata

Namn	Typ	Description
Resultatdatauppsättning	Datatabell	En profil för indatauppsättningen som innehåller beskrivande statistik

Undantag

Undantag	Description
Fel 0003	Undantaget inträffar om en eller flera indata är null eller tomma.
Fel 0020	Undantaget inträffar om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0021	Undantaget inträffar om antalet rader i vissa datauppsättningar som skickas till modulen är för litet.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Statistikfunktioner
Beräkna elementär statistik