Gegevens samenvatten
In dit artikel wordt een onderdeel van de Azure Machine Learning-ontwerpfunctie beschreven.
Gebruik het onderdeel Gegevens samenvatten om een set standaard statistische metingen te maken die elke kolom in de invoertabel beschrijven.
Samenvattingsstatistieken zijn handig als u de kenmerken van de volledige gegevensset wilt begrijpen. U moet bijvoorbeeld het volgende weten:
- Hoeveel ontbrekende waarden zijn er in elke kolom?
- Hoeveel unieke waarden zijn er in een functiekolom?
- Wat is het gemiddelde en de standaarddeviatie voor elke kolom?
Het onderdeel berekent de belangrijke scores voor elke kolom en retourneert een rij samenvattingsstatistieken voor elke variabele (gegevenskolom) die als invoer wordt opgegeven.
Gegevens samenvatten configureren
Voeg het onderdeel Gegevens samenvatten toe aan uw pijplijn. U vindt dit onderdeel in de categorie Statistische functies in de ontwerpfunctie.
Verbind de gegevensset waarvoor u een rapport wilt genereren.
Als u slechts over enkele kolommen wilt rapporteren, gebruikt u het onderdeel Kolommen in gegevensset selecteren om een subset van kolommen te projecteren waarmee u wilt werken.
Er zijn geen extra parameters vereist. Standaard analyseert het onderdeel alle kolommen die als invoer worden opgegeven. Afhankelijk van het type waarden in de kolommen wordt een relevante set statistieken uitgevoerd, zoals beschreven in de sectie Resultaten .
Verzend de pijplijn.
Resultaten
Het rapport van het onderdeel kan de volgende statistieken bevatten.
Kolomnaam | Beschrijving |
---|---|
Functie | Naam van de kolom |
Count | Aantal rijen |
Aantal unieke waarden | Aantal unieke waarden in kolom |
Aantal ontbrekende waarden | Aantal unieke waarden in kolom |
Min | Laagste waarde in kolom |
Max | Hoogste waarde in kolom |
Bedoel | Gemiddelde van alle kolomwaarden |
Gemiddelde afwijking | Gemiddelde deviatie van kolomwaarden |
1e kwartiel | Waarde op eerste kwartiel |
Mediaan | Mediaankolomwaarde |
3e kwartiel | Waarde op derde kwartiel |
Modus | Modus van kolomwaarden |
Bereik | Geheel getal dat het aantal waarden tussen de maximum- en minimumwaarden aangeeft |
Variantie van voorbeeld | Afwijking voor kolom; zie Opmerking |
Voorbeeld van standaarddeviatie | Standaarddeviatie voor kolom; zie Opmerking |
Voorbeeld van scheefheid | Scheefheid voor kolom; zie Opmerking |
Voorbeeld van Kurtosis | Kurtosis voor kolom; zie Opmerking |
P0.5 | 0,5% percentiel |
P1 | 1% percentiel |
P5 | 5% percentiel |
P95 | 95% percentiel |
P99.5 | 99,5% percentiel |
Technische opmerkingen
Voor niet-numerieke kolommen worden alleen de waarden voor Aantal, Aantal unieke waarden en Aantal ontbrekende waarden berekend. Voor andere statistieken wordt een null-waarde geretourneerd.
Kolommen die Booleaanse waarden bevatten, worden verwerkt met behulp van deze regels:
Bij het berekenen van min wordt een logische AND toegepast.
Bij het berekenen van Max wordt een logische OF toegepast
Bij het berekenen van Bereik controleert het onderdeel eerst of het aantal unieke waarden in de kolom gelijk is aan 2.
Bij het berekenen van een statistiek waarvoor berekeningen met drijvende komma zijn vereist, worden waarden van Waar behandeld als 1,0 en waarden van Onwaar als 0,0.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.