ビデオサーチ: Speech Technologyの研究から

Microsoft Research Asia (MSRA)が取り組んでいる研究のひとつに「Speech technology」というのがあります。

https://research.microsoft.com/speech/

自動で音声認識することや、文字をスピーチに変換することや、音声情報の管理や抽出といった分野で研究が行われています。

今日、その研究の一環として、ビデオサーチという成果を見ることができました。

内容としては、インターネット上に公開されているビデオファイルをキャッシュしておき、その音声情報から喋っている言葉を単語単位で抽出しておきメタデータをデータベース管理することができるようです。そのデータベースに対してキーワード検索をかけると、指定したキーワードを含んでいるビデオコンテンツとそのコンテンツ内のタイムラインを自動検出するというものです。

その研究で作られたアプリケーションで「Channel Japanese」というキーワードで検索を実行してもらったところ、見事に先日公開したChannel 9日本版の第一弾のビデオがヒットしてびっくり!!

とても面白い研究です。日本語の認識に関してはまだこれからというところみたいですが、撮り貯めたデジタルビデオから特定のキーワードや台詞を含んだ箇所だけを抽出できるようになると、デジタルビデオの再生方法や楽しみ方ががらっと変わるかもしれません。たとえば、ニュース放送などで、着目しているキーワードを含む箇所にすぐにジャンプできるようなビデオ再生装置があれば、多チャンネルで録画しておいても効率よく目的のニュースを絞り込むことができそうです。また、音声のメタデータを作る際に音声を認識しているわけですから、今後研究が進んでいけば、ビデオキャストをクロールして、ニュースの要約と動画のリンク先を集約してくれるサービスなんかも自動的に作れそうです。

MSN Videoなど、ビデオ配信をしているサイトが増えている中で、将来、簡単に誰もがビデオ内の音声情報を文字として抽出したり、文字から音声情報と対応するビデオのタイムラインを検索したりできるのであれば、ビデオの視聴におけるタイムシフトやビデオに関連する情報サービスとの連携というのが見込めそうです。

さらには音声情報からの自動翻訳というのも進んでいくように思います。この精度が高まってくれば、インターネット上のあらゆるビデオコンテンツを見たいときにオンデマンドで字幕スーパーを作成できるのではないでしょうか。そうなると言語の壁がかなり低くなって、いろんな国のビデオを音声からは意味がわからなくとも文字から意味を理解することができるようになるのでしょう。地域や文化に特化した情報、それを他の文化圏から容易にアクセスできるようになると、異文化コミュニケーションの中に新しい気付きが生まれるかもしれません。

ビデオサーチのデモについては、近いうちにChannel 9で公開したいと思います。

雰囲気を理解してもらうことを優先したいので、基本は英語で。ポイントとなる点は、日本語のテロップを挿入しようと思います。