Azure Video Indexer とは?

警告

2020 年 6 月 11 日に、Microsoft は、人権に基づく厳格な法令が制定されない限り、米国内の警察に顔認識テクノロジを販売しないことを発表しました。 このため、顧客は、米国内の警察である場合、または警察による顔認識機能および Azure Services に含まれる機能 (Face や Azure Video Indexer (旧 Azure Video Analyzer for Media) など) の使用を許可する場合、これらの機能を使用できません。

Azure Video Indexer (旧称 Azure Video Analyzer for Media) は、Azure Media Services と Azure Cognitive Services (Face、Translator、Computer Vision、Speech など) が基になっている Azure Applied AI Services の一部であるクラウド アプリケーションです。 Azure Video Indexer のビデオとオーディオのモデルを使用して、ビデオから分析情報を抽出することができます。

Azure Video Indexer で分析情報の抽出を開始するには、アカウントを作成してビデオをアップロードする必要があります。 Azure Video Indexer にビデオをアップロードすると、さまざまな AI モデルを実行することで、ビジュアルとオーディオの両方が分析されます。 Azure Video Indexer でビデオを分析すると、分析情報が AI モデルによって抽出されます。

Azure Video Indexer アカウントを作成し、それを Media Services に接続すると、その Media Services アカウントに関連付けられている Azure ストレージ アカウントにメディアとメタデータのファイルが格納されます。 詳細については、「Azure に接続された Azure Video Indexer アカウントを作成する」を参照してください。

次の図はイラストであり、バックエンドで Azure Video Indexer がどのように機能するかについての技術的な説明ではありません。

Azure Video Indexer flow diagram

コンプライアンス、プライバシー、セキュリティ

重要な注意事項として、Azure Video Indexer の使用に適用されるすべての法律に従う必要があります。また、他の人の権利を犯したり、他の人に害を及ぼしたりする可能性のある方法で Azure Video Indexer または何らかの Azure サービスを使用することはできません。

Azure Video Indexer にビデオまたは画像をアップロードする前に、ビデオまたは画像を使用するための適切な権限をすべて取得している必要があります。これには、法律で義務づけられている場合において、ビデオまたは画像に含まれる人物から、Azure Video Indexer および Azure でのデータの使用、処理、および保存について、必要なすべての同意を得ることが含まれます (このような人物が存在する場合)。 一部の法的管轄区域では、生体認証データなどの特定のカテゴリのデータの収集、オンライン処理、および保管に関して特別な法的要件が課せられる場合があります。 特別な法的要件の対象となるデータの処理と保管のために Azure Video Indexer と Azure を使用する前に、適用される可能性のあるこのような法的要件に準拠していることを確認する必要があります。

Azure Video Indexer のコンプライアンス、プライバシー、およびセキュリティについては、Microsoft セキュリティ センターにアクセスしてください。 Microsoft のプライバシー義務、データの取り扱いと保持の慣行 (データの削除方法など) については、Microsoft のプライバシー ステートメントオンライン サービス規約 ("OST")、およびデータ処理の補遺 ("DPA") に関するページをご確認ください。 Azure Video Indexer を使用することによって、OST、DPA およびプライバシーに関する声明に従うことに同意したものとみなされます。

Azure Video Indexer で何ができますか?

Azure Video Indexer の分析情報は、次のような多くのシナリオに適用できます。

  • ディープ検索: ビデオから抽出された分析情報を使用して、ビデオ ライブラリ全体での検索エクスペリエンスを強化します。 たとえば、話されている語句と顔にインデックスを作成すると、人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。 ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメント コンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオ ライブラリを保有するすべての業界が対象になります。
  • コンテンツの作成: Azure Video Indexer によってコンテンツから抽出する分析情報に基づいて、トレーラー、ハイライト リール、ソーシャル メディア コンテンツまたはニュース クリップを作成します。 ユーザーとラベルの外観用のキーフレーム、シーン マーカー、タイムスタンプにより、作成プロセスがより滑らかで簡単になり、作成中のコンテンツに必要なビデオの部分にアクセスできるようになります。
  • アクセシビリティ: 障碍のあるユーザーがコンテンツを利用できるようにする場合も、コンテンツをさまざまな言語を使用して異なるリージョンに配布する場合も、複数の言語の Azure Video Indexer によって提供される文字起こしと翻訳を使用できます。
  • 収益化: Azure Video Indexer は、ビデオの値の向上に役立ちます。 たとえば、広告収入に依存している業界 (ニュース メディア、ソーシャル メディアなど) では、抽出した分析情報を広告サーバーへの追加のシグナルとして利用することで、関連広告を提供できます。
  • コンテンツ モデレーション: テキストとビジュアルのコンテンツ モデレーション モデルを使用して、不適切なコンテンツからユーザーの安全を維持し、公開したコンテンツが組織の値と一致することを検証します。 コンテンツに関して、特定のビデオを自動的にブロックしたり、ユーザーに通知したりすることができます。
  • 推奨事項:ビデオの分析情報は、ユーザーに関連のあるビデオ モーメントを強調表示することで、ユーザー エンゲージメントを向上させるために使用できます。 各ビデオに追加のメタデータをタグ付けすることで、ユーザーに最も関連性の高いビデオをお勧めし、ニーズに合うビデオの部分を強調表示することができます。

特徴

次の一覧は、Azure Video Indexer のビデオとオーディオ モデルを使用して、ビデオから取得できる分析情報を示しています。

ビデオの分析情報

  • 顔検出:ビデオに表示される顔を検出し、グループ化します。
  • 著名人の識別: Azure Video Indexer では、世界中のリーダー、男優、女優、アスリート、研究者、ビジネス リーダー、技術リーダーなど、100 万人を超える著名人を自動的に識別します。 これらの著名人に関するデータは、さまざまな Web サイト (IMDB、Wikipedia など) でも見つけることができます。
  • アカウントベースの顔識別: Azure Video Indexer は、特定のアカウントのモデルをトレーニングします。 その後、トレーニングされたモデルに基づいてビデオ内の顔を認識します。 詳細については、「Azure Video Indexer Web サイトから人物モデルをカスタマイズする」と「Azure Video Indexer API を使用して人物モデルをカスタマイズする」をご覧ください。
  • 顔のサムネイルの抽出 ("最適な顔"):顔の各グループでキャプチャされた最適な顔を (品質、サイズ、正面位置に基づいて) 自動的に識別し、それをイメージ アセットとして抽出します。
  • ビジュアル テキストの認識 (OCR):ビデオ内に視覚的に表示されるテキストを抽出します。
  • ビジュアル コンテンツ モデレーション:成人向けやわいせつなビジュアルを検出します。
  • ラベルの識別:表示されるビジュアル オブジェクトとアクションを識別します。
  • シーンのセグメント化: 視覚的な手掛かりに基づいて、ビデオ内でシーンが変化するタイミングを決定します。シーンは単一のイベントを表し、意味的に関連する一連の連続したショットで構成されます。
  • ショット検出:視覚的な手掛かりに基づいて、ビデオ内のショットが変化するタイミングを決定します。ショットは、同じ動画カメラから撮影された一連のフレームです。 詳細については、「Scenes, shots, and keyframes」(シーン、ショット、キーフレーム) を参照してください。
  • 黒フレームの検出:ビデオに表示された黒フレームを識別します。
  • キーフレームの抽出:ビデオ内の安定したキーフレームを検出します。
  • ローリング クレジット: テレビ番組や映画の終わりにあるローリング クレジットの始まりと終わりを識別します。
  • アニメーション キャラクターの検出 (プレビュー): Cognitive Services の Custom Vision との統合によって、アニメ化されたコンテンツのキャラクターの検出、グループ化、および認識を行います。 詳細については、「アニメーション キャラクターの検出」を参照してください。
  • 編集ショット タイプの検出: タイプに基づくショットのタグ付け (ワイド ショット、ミディアム ショット、クローズアップ、エクストリーム クローズアップ、2 ショット、複数の人物、屋外、室内など)。 詳細については、「編集ショット タイプの検出」を参照してください。
  • 観測されたユーザーのトレース (プレビュー): ビデオで観察されたユーザーを検出し、ビデオ フレーム内のユーザーの場所 (境界ボックスを使用) や、正確なタイムスタンプ (開始、終了)、ユーザーが表示されたときの信頼度などの情報を提供します。 詳細については、「Trace observed people in a video」(ビデオ内で確認されたユーザーを追跡する)を参照してください。
    • 検出された人物の衣服: ビデオに登場する人の衣服の種類を検出し、長袖または半袖、長ズボンまたは半ズボン、スカートまたはワンピースなどの情報を提供します。 検出された衣服はそれを着ている人に関連付けられ、正確なタイムスタンプ (開始,終了) と検出の信頼度が提供されます。
  • 一致したユーザー: ビデオで観察された人物と、それに対応する検出された顔が一致します。 観察された人物と顔との照合には、信頼レベルが含まれます。

オーディオの分析情報

  • 音声の文字起こし: 50 を超える言語で音声をテキストに変換します。拡張機能を使用できます。 サポートされている言語: 英語 (米国)、英語 (英国)、英語 (オーストラリア)、スペイン語、スペイン語 (メキシコ)、フランス語、フランス語 (カナダ)、ドイツ語、イタリア語、標準中国語、中国語 (広東語、繁体字)、簡体字中国語、日本語、ロシア語、ポルトガル語、ヒンディー語、チェコ語、オランダ語、ポーランド語、デンマーク語、ノルウェー語、フィンランド語、スウェーデン語、タイ語、トルコ語、韓国語、アラビア語 (エジプト)、アラビア語 (シリア アラブ共和国)、アラビア語 (イスラエル)、アラビア語 (イラク)、アラビア語 (ヨルダン)、アラビア語 (クウェート)、アラビア語 (レバノン)、アラビア語 (オマーン)、アラビア語 (カタール)、アラビア語 (サウジアラビア)、アラビア語 (アラブ首長国連邦)、アラビア語 (パレスチナ自治政府)、およびアラビア語現代標準 (バーレーン)。

  • 自動言語検出:主な音声言語を自動的に識別します。 英語、スペイン語、フランス語、ドイツ語、イタリア語、中国語 (北京)、日本語、ロシア語、ポルトガル語などの言語がサポートされています。 言語を確実に識別できない場合、Azure Video Indexer では音声言語が英語と想定されます。 詳細については、言語識別モデルに関する記事を参照してください。

  • 複数言語の音声識別と文字起こし: 音声から異なるセグメントにある音声言語を自動的に識別します。 書き起こされるようにメディア ファイルの各セグメントを送信した後、文字起こしが 1 つの統合された文字起こしに結合されます。 詳細については、「複数言語のコンテンツを自動的に識別および文字起こしする」を参照してください。

  • 字幕:VTT、TML、SRT という 3 つの形式で字幕を作成します。

  • 2 チャネル処理:個別のトランスクリプトを自動検出し、1 つのタイムラインに結合します。

  • ノイズリダクション:(Skype フィルターに基づいて) テレフォニー音声やノイズの多い録音を明瞭にします。

  • トランスクリプトのカスタマイズ (CRIS):音声テキスト変換のカスタム モデルをトレーニングして、業界固有のトランスクリプトを作成します。 詳細については、「Azure Video Indexer Web サイトから言語モデルをカスタマイズする」と「Azure Video Indexer API を使用して言語モデルをカスタマイズする」をご覧ください。

  • 話者の列挙:どの話者がどの言葉をいつ話したかをマップして認識します。 16 人の話者を 1 つの音声ファイルで検出できます。

  • 話者の統計情報:話者の音声率の統計情報を提供します。

  • テキストのコンテンツ モデレーション:音声トランスクリプト内の明示的なテキストを検出します。

  • 音声効果 (プレビュー): コンテンツの非音声セグメントで以下の音声効果を検出します。銃声、ガラスの破砕音、警報、サイレン、爆発、犬の鳴き声、叫び声、笑い声、観衆の反応 (歓声、拍手、ブーイング)、沈黙。 注: アップロードのプリセットで "高度な音声分析" を選択した場合にのみすべてのイベントを利用できます。それ以外の場合は、"沈黙" と "観衆の反応" のみを使用できます。

  • 感情の検出:音声 (話されている内容) と口調 (話し方) に基づいて感情を識別します。 この感情は、喜び、悲しみ、怒り、または恐怖の可能性があります。

  • 翻訳:音声トランスクリプトの、54 の異なる言語への翻訳を作成します。

  • オーディオ効果検出 (プレビュー): コンテンツの非音声セグメントで以下の音声効果を検出します。警報、サイレン、犬の鳴き声、観衆の反応 (歓声、拍手、ブーイング)、銃声や爆発、笑い声、ガラスの破砕音、沈黙。

    検出される音響イベントはクローズド キャプション ファイルにあります。 このファイルは、Azure Video Indexer ポータルからダウンロードできます。 詳細については、「オーディオ効果の検出」を参照してください。

    Note

    イベントの完全なセットは、アップロード プリセットでファイルをアップロードするときに高度な音声分析を選択した場合にのみ使用できます。 既定では、無音のみが検出されます。

オーディオとビデオの分析情報 (マルチチャンネル)

1 つのチャンネルでインデックスを付けるときは、これらのモデルの部分的な結果を利用できます

  • キーワードの抽出:音声と視覚テキストからキーワードを抽出します。
  • 名前付きエンティティの抽出:自然言語処理 (NLP) を使用して、音声および視覚テキストからブランド、場所、および人物を抽出します。
  • トピックの推定: さまざまなキーワード ("証券取引"、"ウォールストリート" というキーワードからは "経済" というトピックが生成されます) に基づいて、トピックを抽出します。 このモデルでは、3 つの異なるオントロジー (IPTCWikipedia、および Video Indexer の階層型トピック オントロジー) を使用します。 このモデルでは、文字起こし (話し言葉)、OCR コンテンツ (ビジュアル テキスト)、および Video Indexer の顔認識モデルを使用してビデオで認識された著名人を使用します。
  • 成果物:各モデルについて、"次のレベルの詳細情報" 成果物の豊富なセットを抽出します。
  • センチメント分析:音声と視覚テキストから、ポジティブ、ネガティブ、ニュートラルのセンチメントを識別します。

Azure Video Indexer を使い始めるにはどうすればよいですか?

Azure Video Indexer の機能には、次の 3 つの方法でアクセスできます。

  • Azure Video Indexer ポータル: 製品の評価、アカウントの管理、モデルのカスタマイズを可能にする、使いやすいソリューションです。

    ポータルの詳細については、「Azure Video Indexer Web サイトでの作業の開始」を参照してください。

  • API 統合: Azure Video Indexer の機能はすべて、REST API を通じて利用できます。これにより、ソリューションをご利用のアプリとインフラストラクチャに統合できます。

    開発者として使い始めるには、「Azure Video Indexer REST API の使用」を参照してください。

  • 埋め込み可能なウィジェット: Azure Video Indexer の分析情報、プレーヤー、エディターのエクスペリエンスをご利用のアプリに埋め込むことができます。

    詳細については、「アプリケーションにビジュアル ウィジェットを埋め込む」を参照してください。

Web サイトを使用している場合は、分析情報がメタデータとして追加され、ポータルに表示されます。 API を使用している場合、分析情報は JSON ファイルとして入手できます。

サポートされているブラウザー

次の一覧は、Azure Video Indexer の Web サイト、およびウィジェットを埋め込むアプリに使用できる、サポートされているブラウザーを示しています。 この一覧には、サポートされているブラウザーの最小バージョンも示されています。

  • Edge、バージョン:16
  • Firefox、バージョン:54
  • Chrome、バージョン:58
  • Safari、バージョン:11
  • Opera、バージョン:44
  • Opera Mobile、バージョン:59
  • Android ブラウザー、バージョン:81
  • Samsung ブラウザー、バージョン:7
  • Android 用 Chrome、バージョン:87
  • Android 用 Firefox、バージョン:83

次のステップ

これで、Azure Video Indexer の使用を開始する準備ができました。 詳細については、次の記事を参照してください。