소개

완료됨

데이터 과학자의 역할은 주로 데이터 탐색 및 분석과 관련되어 있습니다. 데이터 분석의 최종 결과는 보고서 또는 기계 학습 모델일 수 있지만, 데이터 과학자는 데이터 과학자가 데이터 작업에 가장 많이 사용하는 프로그래밍 언어인 Python으로 데이터 작업을 시작합니다.

수십 년의 오픈 소스 개발 후, Python은 강력한 통계 및 숫자 라이브러리를 사용하여 광범위한 기능을 제공합니다.

  • NumPy 및 Pandas는 데이터 분석 및 조작을 간소화합니다.
  • Matplotlib는 매력적인 데이터 시각화를 제공합니다.
  • Scikit-learn은 간단하고 효과적인 예측 데이터 분석을 제공합니다.
  • TensorFlow 및 PyTorch는 기계 학습 및 딥 러닝 기능을 제공합니다.

예제 시나리오

일반적으로 데이터 분석 프로젝트는 특정 시나리오에 대한 인사이트를 확립하거나 가설을 테스트할 수 있도록 설계됩니다.

예를 들어 대학교수가 출석 강의 수, 공부한 시간, 학기말 시험이 끝난 후 받은 최종 성적 등 학생들에 대한 데이터를 수집한다고 가정하겠습니다. 교수는 데이터를 분석하여 학생의 공부 시간과 최종 성적 사이에 관계가 있는지 확인할 수 있습니다. 교수는 데이터를 사용하여 최소 시간 이상을 공부에 투자한 학생만이 통과 점수를 얻을 수 있다는 가설을 테스트할 수 있습니다.

Diagram of lecture and study time related to student grades.

이 모듈에서 수행할 작업

이 학습 모듈에서는 가상 대학 수업의 성적 데이터를 교수의 관점에서 탐색하고 분석하겠습니다. Jupyter Notebook과 여러 Python 도구 및 라이브러리를 사용하여 데이터 집합을 정리하고, 통계 기술을 적용하여 데이터에 대한 여러 가설을 테스트하고, 데이터를 시각화하여 변수 간의 관계를 확인할 것입니다.