オーディオ効果検出を有効にする (プレビュー)

重要

Azure Media Services の 提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の 機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供 終了の準備: VI の更新と移行に関するガイドを参照してください。

オーディオ効果検出は、Azure AI Video Indexer の AI 機能の 1 つで、さまざまな音響イベントを検出し、それらをさまざまな音響カテゴリ (犬の鳴き声、群衆の反応、笑い声など) に分類するものです。

この機能が役立つシナリオを次にいくつか示します。

  • 大量のビデオ アーカイブを持つ企業は、音響効果の検出により、簡単にアクセシビリティを向上させることができます。 この機能は、聴覚に障碍のあるユーザーに対してより多くのコンテキストを提供し、ビデオの文字起こしを非スピード効果で強化します。
  • Media & Entertainment doメインでは、検出機能を使用すると、コンテンツ作成者向けの生データを作成するときの効率を向上させることができます。 キャンペーンや予告編の重要な瞬間 (笑い声、群衆の反応、銃声、爆発など) は、音声効果の検出を使って識別することができます。
  • パブリックセーフティ&ジャスティスではメイン、この機能は銃声、爆発、ガラスの粉々を検出して分類できます。 スマートシティ システムや、カメラやマイクを含む他の公共環境に実装することで、暴力事件を迅速かつ正確に検出することができます。

サポートされているオーディオ カテゴリ

オーディオ効果検出では、さまざまなカテゴリを検出して分類できます。 次の表で、異なるカテゴリが異なるプリセットに分けられ、標準高度に分けられていることがわかります。 詳細については、価格に関するページを参照してください。

次の表では、プリセット名 (音声のみ / ビデオとオーディオまたは高度なオーディオ / 高度なビデオとオーディオ) に応じて、どのカテゴリがサポートされるかを示しています。 高度なインデックス作成を使用している場合は、Web サイトのインサイト ウィンドウにカテゴリが表示されます。

クラス 標準的なインデックス作成 高度なインデックス作成
群衆の反応 ✔️
無音 ✔️ ✔️
銃声または爆発 ✔️
ガラスの破砕音 ✔️
アラームまたはサイレン ✔️
笑い声 ✔️
✔️
ベルが鳴る音 ✔️
✔️
Car ✔️
エンジン ✔️
泣き声 ✔️
音楽の再生 ✔️
叫び声 ✔️
雷雨 ✔️

結果の形式

オーディオ効果は分析情報の JSON で取得されます。これには、カテゴリ ID、種類、およびカテゴリごとのインスタンスのセットと、特定の期間と信頼スコアが含まれます。

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

オーディオ効果のインデックスを作成する方法

オーディオ効果の検出を含めるようにインデックス プロセスを設定するには、以下に示すように、[動画 + オーディオのインデックス作成] メニューの [高度] なプリセットのいずれかを選択する必要があります。

オーディオ効果のインデックスを作成する画像

クローズド キャプション

閉じたキャプション ファイルでオーディオ効果が取得されると、次の構造が角かっこで囲まれた状態で取得されます。

Type
SRT 00:00:00,000 00:00:03,671
[銃声または爆発]
VTT 00:00:00.000 00:00:03.671
[銃声または爆発]
TTML 信頼度: 0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [銃声または爆発]
CSV 0.9047,00:00:00.000,00:00:03.671, [銃声または爆発]

閉じたキャプションファイルのオーディオ効果は、次のロジックを使用して取得されます。

  • Silenceイベントの種類は、閉じたキャプションには追加されません。
  • イベントを表示する最小タイマー期間は 700 ミリ秒です。

クローズド キャプション ファイルへのオーディオ効果の追加

オーディオ効果は、Azure AI Video Indexe でサポートされているクローズド キャプション ファイルに追加できます。その場合、includeAudioEffects パラメーターで true を選択してビデオ キャプションの取得 API を使用するか、[ダウンロード] ->[クローズド キャプション] ->[Include Audio Effects] (オーディオ効果を含める) の順に選択して、video.ai Web サイト エクスペリエンスを使用します。

CC でのオーディオ効果

Note

クローズド キャプション ファイルからのトランスクリプトの更新、またはクローズド キャプション ファイルからのカスタム言語モデルの更新を使用する場合、それらのファイルに含まれるオーディオ効果は無視されます。

制限事項と前提

  • オーディオ効果は、非セグメントにのみ存在する場合に検出されます。
  • このモデルは、大きなバックグラウンド ミュージックがない場合に最適化されています。
  • オーディオの品質が低い場合、検出の結果に影響する可能性があります。
  • 最小の非スピード セクション期間は 2 秒です。
  • 反復的または直線的な周波数を特徴とする音楽は、誤ってアラームやサイレンと分類される可能性があります。
  • モデルは現在、自然で非合成の銃声と爆発音に最適化されています。
  • ドアのノックやドアを閉める音は、銃声や爆発音と誤ってラベルが付けられる可能性があります。
  • 長時間の叫び声や人間の運動による音が誤って検出される可能性があります。
  • 複数人の笑い声は、笑い声と群衆の反応の両方に分類される可能性があります。