PyTorch を使用したオーディオ分類の概要

初級
データ サイエンティスト
開発者
学生
Azure

この学習モジュールでは、PyTorch を使用してオーディオ分類を行う方法について学習します。 オーディオ データの機能と、音声信号をスペクトログラムと呼ばれる視覚表現に変換する方法について詳しく説明します。 次に、スペクトログラム イメージに対して Computer Vision を使用してモデルを構築します。 そうです、音声を画像形式に変換してから、Computer Vision を実行して、話された単語を分類することができます。

学習の目的

このモジュールでは、次のことを行います。

  • オーディオ データの基本的な特徴を学習します。
  • スペクトログラムを使用してサウンド信号をビジュアル イメージ形式に変換する方法について学習します。
  • 畳み込みニューラル ネットワーク (CNN) を使用して音や音声を認識できる音声分類モデルを構築します。

前提条件

  • Python の基本的な知識。
  • Jupyter Notebook の使用方法に関する基本的な知識。
  • CNN についての基本的な理解。 このラーニング パスの「PyTorch を使用したコンピューター ビジョンの概要」モジュールから開始することをお勧めします。