はじめに

完了

当然のことですが、データ科学者の役割には、主にデータの探索と分析が含まれます。 データ分析の最終結果はレポートまたは機械学習モデルですが、データ サイエンティストは Python を使用してデータ操作を開始します。Python は、データ サイエンティストがデータの操作に使用する最も一般的なプログラミング言語はです。

何十年にもわたってオープンソースで開発されてきた Python では、強力な統計ライブラリと数値ライブラリを備えた広範な機能が提供されます。

  • NumPy と Pandas を使用すると、データの分析と操作が簡略化されます
  • Matplotlib では、魅力的なデータ視覚化が提供されます
  • Scikit-learn では、シンプルで効果的な予測データ分析が提供されます
  • TensorFlow と PyTorch では、機械学習とディープ ラーニングの機能が提供されます

シナリオ例

通常、データ分析プロジェクトは、特定のシナリオに関する分析情報を確立したり、仮説をテストしたりするように設計されています。

たとえば、大学教授が、講義の出席回数、学習に費やした時間、期末試験の終わりに達成した最終的な成績などの学生に関するデータを収集するとします。 教授はこのデータを分析して、学生の学習量と最終的な成績との間に関係があるかどうかを判断できます。 教授はこのデータを使用して、最低限の時間勉強した学生だけが合格点に達することができるという仮説をテストできます。

Diagram of lecture and study time related to student grades.

学習内容

このトレーニング モジュールでは、教授の視点から、架空の大学のクラスに関する成績データを調べて分析します。 Jupyter ノートブックといくつかの Python ツールやライブラリを使い、データ セットをクリーンし、統計的手法を適用してデータに関するいくつかの仮説を検証し、データを視覚化して、変数間のリレーションシップを判断します。