Granska verkliga data

Slutförd

Data som presenteras i utbildningsmaterial är ofta anmärkningsvärt perfekta, utformade för att visa eleverna hur man hittar tydliga relationer mellan variabler. "Verkliga" data är lite mindre enkla.

På grund av komplexiteten i "verkliga" data måste vi inspektera rådata efter problem innan vi använder dem.

Därför är bästa praxis att inspektera rådata och bearbeta dem före användning, vilket minskar fel eller problem vanligtvis genom att ta bort felaktiga datapunkter eller ändra data till ett mer användbart formulär.

Problem med verkliga data

Verkliga data kan innehålla många olika problem som kan påverka nyttan av data och vår tolkning av resultaten.

Det är viktigt att inse att de flesta verkliga data påverkas av faktorer som inte registrerades vid den tidpunkten. Vi kan till exempel ha en tabell med tävlingsbilsspårtider tillsammans med motorstorlekar. men olika andra faktorer som inte skrevs ner, till exempel vädret, spelade förmodligen också en roll. Om det är problematiskt kan vi ofta minska påverkan av dessa faktorer genom att öka datamängdens storlek.

I andra situationer kan datapunkter som ligger klart utanför vad som förväntas – även kallade "extremvärden" – ibland tas bort från analyser på ett säkert sätt, även om vi måste vara noga med att inte ta bort datapunkter som ger verkliga insikter.

Ett annat vanligt problem i verkliga data är bias. Bias refererar till en tendens att välja vissa typer av värden oftare än andra på ett sätt som förvränger den underliggande populationen eller "verkliga världen". Bias kan ibland identifieras genom att utforska data samtidigt som du tänker på grundläggande kunskaper om var data kommer ifrån.

Verkliga data kommer alltid att ha problem, men dataexperter kan ofta lösa dessa problem genom att:

  • Söker efter saknade värden och felaktigt registrerade data.
  • Överväg att ta bort uppenbara extremvärden.
  • Undersöka vilka verkliga faktorer som kan påverka deras analys och avgöra om deras datamängdsstorlek är tillräckligt stor för att minska effekten av dessa faktorer.
  • Söker efter partiska rådata och överväger sina alternativ för att åtgärda biasen, om den hittas.