Utforska data med NumPy och Pandas

Slutförd

Dataexperter kan använda olika verktyg och tekniker för att utforska, visualisera och manipulera data. Ett av de vanligaste sätten för dataexperter att arbeta med data är att använda Python-språket och vissa specifika paket för databehandling.

Vad är NumPy?

NumPy är ett Python-bibliotek som tillhandahåller funktioner som är jämförbara med matematiska verktyg som MATLAB och R. Även om NumPy avsevärt förenklar användarupplevelsen, erbjuder det även omfattande matematiska funktioner.

Vad är Pandas?

Pandas är ett mycket populärt Python-bibliotek för dataanalys och manipulering. Pandas är som ett kalkylbladsprogram för Python, vilket ger lätt att använda funktioner för datatabeller.

Diagram of Pandas DF.

Utforska data i en Jupyter-anteckningsbok

Jupyter Notebooks är ett populärt sätt att köra grundläggande skript med hjälp av webbläsaren. Dessa notebook-filer är vanligtvis en enda webbsida, uppdelade i textavsnitt och kodavsnitt som körs på servern i stället för din lokala dator. Genom att köra kod i Jupyter Notebooks på en server kan du komma igång snabbt utan att behöva installera Python eller andra verktyg på den lokala datorn.

Testa hypoteser

Datautforskning och analys är vanligtvis en iterativ process där dataexperten tar ett urval av data och utför följande typer av uppgifter för att analysera den och testa hypoteser:

  • Rensa data för att hantera fel, saknade värden och andra problem.
  • Använd statistiska tekniker för att bättre förstå data och hur urvalet kan förväntas representera den verkliga datapopulationen, vilket möjliggör slumpmässig variation.
  • Visualisera data för att fastställa relationer mellan variabler och när det gäller ett maskininlärningsprojekt kan du identifiera funktioner som kan förutsäga etiketten.
  • Revidera hypotesen och upprepa processen.