Gegevens samenvatten

In dit artikel wordt een onderdeel van de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik het onderdeel Gegevens samenvatten om een set standaard statistische metingen te maken die elke kolom in de invoertabel beschrijven.

Samenvattingsstatistieken zijn handig als u de kenmerken van de volledige gegevensset wilt begrijpen. U moet bijvoorbeeld het volgende weten:

  • Hoeveel ontbrekende waarden zijn er in elke kolom?
  • Hoeveel unieke waarden zijn er in een functiekolom?
  • Wat is het gemiddelde en de standaarddeviatie voor elke kolom?

Het onderdeel berekent de belangrijke scores voor elke kolom en retourneert een rij samenvattingsstatistieken voor elke variabele (gegevenskolom) die als invoer wordt opgegeven.

Gegevens samenvatten configureren

  1. Voeg het onderdeel Gegevens samenvatten toe aan uw pijplijn. U vindt dit onderdeel in de categorie Statistische functies in de ontwerpfunctie.

  2. Verbind de gegevensset waarvoor u een rapport wilt genereren.

    Als u slechts over enkele kolommen wilt rapporteren, gebruikt u het onderdeel Kolommen in gegevensset selecteren om een subset van kolommen te projecteren waarmee u wilt werken.

  3. Er zijn geen extra parameters vereist. Standaard analyseert het onderdeel alle kolommen die als invoer worden opgegeven. Afhankelijk van het type waarden in de kolommen wordt een relevante set statistieken uitgevoerd, zoals beschreven in de sectie Resultaten .

  4. Verzend de pijplijn.

Resultaten

Het rapport van het onderdeel kan de volgende statistieken bevatten.

Kolomnaam Beschrijving
Functie Naam van de kolom
Count Aantal rijen
Aantal unieke waarden Aantal unieke waarden in kolom
Aantal ontbrekende waarden Aantal unieke waarden in kolom
Min Laagste waarde in kolom
Max Hoogste waarde in kolom
Bedoel Gemiddelde van alle kolomwaarden
Gemiddelde afwijking Gemiddelde deviatie van kolomwaarden
1e kwartiel Waarde op eerste kwartiel
Mediaan Mediaankolomwaarde
3e kwartiel Waarde op derde kwartiel
Modus Modus van kolomwaarden
Bereik Geheel getal dat het aantal waarden tussen de maximum- en minimumwaarden aangeeft
Variantie van voorbeeld Afwijking voor kolom; zie Opmerking
Voorbeeld van standaarddeviatie Standaarddeviatie voor kolom; zie Opmerking
Voorbeeld van scheefheid Scheefheid voor kolom; zie Opmerking
Voorbeeld van Kurtosis Kurtosis voor kolom; zie Opmerking
P0.5 0,5% percentiel
P1 1% percentiel
P5 5% percentiel
P95 95% percentiel
P99.5 99,5% percentiel

Technische opmerkingen

  • Voor niet-numerieke kolommen worden alleen de waarden voor Aantal, Aantal unieke waarden en Aantal ontbrekende waarden berekend. Voor andere statistieken wordt een null-waarde geretourneerd.

  • Kolommen die Booleaanse waarden bevatten, worden verwerkt met behulp van deze regels:

    • Bij het berekenen van min wordt een logische AND toegepast.

    • Bij het berekenen van Max wordt een logische OF toegepast

    • Bij het berekenen van Bereik controleert het onderdeel eerst of het aantal unieke waarden in de kolom gelijk is aan 2.

    • Bij het berekenen van een statistiek waarvoor berekeningen met drijvende komma zijn vereist, worden waarden van Waar behandeld als 1,0 en waarden van Onwaar als 0,0.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.