PyTorch を使用したオーディオ分類の概要

モジュール
5 ユニット

初級

データサイエンティスト

開発者

学生

Azure

この学習モジュールでは、PyTorch を使用してオーディオ分類を行う方法について学習します。オーディオデータの機能と、音声信号をスペクトログラムと呼ばれる視覚表現に変換する方法について詳しく説明します。次に、スペクトログラムイメージに対して Computer Vision を使用してモデルを構築します。そうです、音声を画像形式に変換してから、Computer Vision を実行して、話された単語を分類することができます。

学習の目的

このモジュールでは、次のことを行います。

オーディオデータの基本的な特徴を学習します。
スペクトログラムを使用してサウンド信号をビジュアルイメージ形式に変換する方法について学習します。
畳み込みニューラルネットワーク (CNN) を使用して音や音声を認識できる音声分類モデルを構築します。

前提条件

Python の基本的な知識。
Jupyter Notebook の使用方法に関する基本的な知識。
CNN についての基本的な理解。このラーニングパスの「PyTorch を使用したコンピュータービジョンの概要」モジュールから開始することをお勧めします。