Video Indexer とはWhat is Video Indexer?

Azure Video Indexer は、Azure Media Analytics、Azure Search、Cognitive Services (Face API、Microsoft Translator、Computer Vision API、Custom Speech Service など) を基盤として構築されたクラウド アプリケーションです。Azure Video Indexer is a cloud application built on Azure Media Analytics, Azure Search, Cognitive Services (such as the Face API, Microsoft Translator, the Computer Vision API, and Custom Speech Service). 以下で説明する Video Indexer のモデルを使用して、ビデオから分析情報を抽出することができます。It enables you to extract the insights from your videos using Video Indexer models described below:

  • 自動言語検出: 主要な話し言葉を自動的に識別します。Automatic language detection: Automatically identifies the dominant spoken language. 英語、スペイン語、フランス語、ドイツ語、イタリア語、中国語 (簡体字)、日本語、ロシア語、ポルトガル語 (ブラジル) などの言語がサポートされています。Supported languages include English, Spanish, French, German, Italian, Chinese (Simplified), Japanese, Russian, and Portuguese (Brazilian). 言語を検出できない場合、英語にフォールバックします。Will fallback to English when the language can't be detected.
  • 音声の文字起こし: 10 の言語で音声をテキストに変換します。拡張機能を使用できます。Audio transcription: Converts speech to text in 10 languages and allows extensions. 英語、スペイン語、フランス語、ドイツ語、イタリア語、中国語 (簡体字)、日本語、アラビア語、ロシア語、ポルトガル語 (ブラジル) などの言語がサポートされています。Supported languages include English, Spanish, French, German, Italian, Chinese (Simplified), Japanese, Arabic, Russian, and Portuguese (Brazilian).
  • 字幕: VTT、TTML、SRT の 3 つの形式で字幕を作成します。Closed captioning: Creates closed captioning in three formats: VTT, TTML, SRT.
  • 2 チャネル処理: 自動検出、トランスクリプトの分離、1 つのタイムラインへの結合を行います。Two channel processing: Auto detects, separate transcript and merges to single timeline.
  • ノイズ リダクション: (Skype フィルターに基づいて) テレフォニー音声やノイズの多い録音を明瞭にします。Noise reduction: Clears up telephony audio or noisy recordings (based on Skype filters).
  • トランスクリプトのカスタマイズ (CRIS): 音声テキスト変換の拡張されたカスタムモデルをトレーニングして実行し、業界固有のトランスクリプトを作成します。Transcript customization (CRIS): Trains and executes extended custom speech to text models to create industry-specific transcripts.
  • 話者の列挙: どの話者がどの言葉をいつ話したかをマップして認識します。Speaker enumeration: Maps and understands which speaker spoke which words and when.
  • 話者の統計情報: 話者の音声率の統計情報を提供します。Speaker statistics: Provides statistics for speakers speech ratios.
  • ビジュアル テキストの認識 (OCR): ビデオ内に視覚的に表示されるテキストを抽出します。Visual text recognition (OCR): Extracts text that is visually displayed in the video.
  • キーフレームの抽出: ビデオ内の安定したキーフレームを検出します。Keyframe extraction: Detects stable keyframes in a video.
  • センチメント分析: 音声と視覚テキストから、ポジティブ、ネガティブ、ニュートラルのセンチメントを識別します。Sentiment analysis: Identifies positive, negative, and neutral sentiments from speech and visual text.
  • ビジュアル コンテンツ モデレート: 成人向けやわいせつなビジュアルを検出します。Visual content moderation: Detects adult and/or racy visuals.
  • キーワードの抽出: 音声と視覚テキストからキーワードを抽出します。Keywords extraction: Extracts keywords from speech and visual text.
  • ラベルの識別: 表示されるビジュアル オブジェクトとアクションを識別します。Labels identification: Identifies visual objects and actions displayed.
  • ブランドの抽出: 音声と視覚テキストからブランドを抽出します。Brands extraction: Extracts brands from speech and visual text.
  • 顔検出: ビデオに現れる顔を検出し、グループ化します。Face detection: Detects and groups faces appearing in the video.
  • 顔のサムネイルの抽出 (「一番の表情」): 顔の各グループで最適にキャプチャされた顔を (品質、サイズ、および正面位置に基づいて) 自動的に識別し、それをイメージ アセットとして抽出します。Thumbnail extraction for faces ("best face"): Automatically identifies the best captured face in each group of faces (based on quality, size, and frontal position) and extract it as an image asset.
  • 著名人の識別: 100 万人の著名人データベースに基づいて、ビデオ内の著名人を認識します。Celebrity identification: Recognizes celebrities in the video based on a database of 1M celebrities. 出典のソースは、IMDB、Wikipedia、Linkedin のトップ インフルエンサーです。The source comes from IMDB, Wikipedia, and top Linkedin influencers.
  • カスタムの顔識別: 特定のアカウント用にトレーニングされたカスタム モデルに基づいて、ビデオ内の顔を認識します。Custom face identification: Recognizes faces in the video based on a custom model trained for the specific account.
  • テキストのコンテンツ モデレーション: 音声トランスクリプト内の性表現があからさまなテキストを検出します。Textual content moderation: Detects explicit text in the audio transcript.
  • ショット検出: ビデオ内でシーンが変化するタイミングを判定します。Shot detection: Determines when a scene changes in the video.
  • ブラック フレームの検出: ビデオに表示されたブラック フレームを識別します。Black frame detection: Identifies black frames presented in the video.
  • 音声効果: 拍手、発言、沈黙などの音声効果を識別します。Audio effects: Identifies audio effects such as hand claps, speech, and silence.
  • トピックの推論: トランスクリプトから主なトピックを推論します。Topic inference: Makes inference of main topics from transcripts. 第 1 レベルの IPTC 分類が含まれています。The 1st-level IPTC taxonomy is included.
  • 感情の検出: 音声とオーディオの手掛かりに基づいて感情を識別します。この感情は、喜び、悲しみ、怒り、または恐怖の可能性があります。Emotion detection: Identifies emotions based on speech and audio cues. The emotion could be: joy, sadness, anger, or fear.
  • 成果物: 各モデルについて、「次のレベルの詳細情報」を持つ成果物の豊富なセットを抽出します。Artifacts: Extracts rich set of "next level of details" artifacts for each of the models.
  • 翻訳: 音声トランスクリプトの、54 の異なる言語への翻訳を作成します。Translation: Creates translations of the audio transcript to 54 different languages.

Video Indexer での処理と分析が終わったら、ビデオの分析情報をレビュー、キュレーション、検索、および発行できます。Once Video Indexer is done processing and analyzing, you can review, curate, search, and publish the video insights.

役割がコンテンツ マネージャーまたは開発者であっても、Video Indexer サービスがあればニーズに対応できます。Whether your role is a content manager or a developer, the Video Indexer service is able to address your needs. コンテンツ マネージャーは Video Indexer Web ポータルを使用して、1 行のコードも記述することなく、サービスを使用できます。Video Indexer Web サイトの使用開始についてのページを参照してください。Content managers can use the Video Indexer web portal to consume the service without writing a single line of code, see Get started with the Video Indexer website. 開発者は API を活用して、コンテンツを大規模に処理できます。Video Indexer REST API の使用に関する記事をご覧ください。Developers can take advantage of APIs to process content at scale, see Use Video Indexer REST API. このサービスでは、顧客はウィジェットを使用してビデオ ストリームと、独自のアプリケーションで抽出された分析情報を発行することもできます。「Embed visual widgets in your application」(アプリケーションでビジュアル ウィジェットを埋め込む) を参照してください。The service also enables customers to use widgets to publish video streams and extracted insights in their own applications, see Embed visual widgets in your application.

既存の AAD、LinkedIn、Facebook、Google、または MSA アカウントを使用して、サービスにサインアップすることができます。You can sign up for the service using existing AAD, LinkedIn, Facebook, Google, or MSA account. 詳細については、概要に関するページを参照してください。For more information, see getting started.

シナリオScenarios

Video Indexer が役に立ついくつかのシナリオを以下に示します。Below are a few scenarios where Video Indexer can be useful

  • 検索 – ビデオから抽出された分析情報を使用して、ビデオ ライブラリ全体での検索エクスペリエンスを向上させることができます。Search – Insights extracted from the video can be used to enhance the search experience across a video library. たとえば、話されている語句と顔にインデックスを作成すると、特定の人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。For example, indexing spoken words and faces can enable the search experience of finding moments in a video where a particular person spoke certain words or when two people were seen together. ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメント コンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオ ライブラリを保有するすべての業界が対象になります。Search based on such insights from videos is applicable to news agencies, educational institutes, broadcasters, entertainment content owners, enterprise LOB apps and in general to any industry that has a video library that users need to search against.

  • 収益化 – Video Indexer は、ビデオの収益価値の向上に役立ちます。Monetization – Video Indexer can help improve the value of videos. たとえば、広告収入に依存している業界 (ニュース メディア、ソーシャル メディアなど) では、抽出した分析情報を広告サーバーへの追加のシグナルとして利用することで、より関連性の高い広告を提供できます (スポーツ シューズの広告を、水泳競技ではなくフットボールの試合の途中に表示すれば、関連性が高まります)。As an example, industries that rely on ad revenue (for example, news media, social media, etc.), can deliver more relevant ads by using the extracted insights as additional signals to the ad server (presenting a sports shoe ad is more relevant in the middle of a football match vs. a swimming competition).

  • ユーザー エンゲージメント – Video Indexer で解明した分析情報は、ユーザーに関連のあるビデオ モーメントをユーザーに提供してユーザー エンゲージメントを向上させるために使用できます。User engagement – Video insights can be used to improve user engagement by positioning the relevant video moments to users. たとえば、最初の 30 分間は球について説明し、次の 30 分間はピラミッドについて説明する教育ビデオについて考えてみましょう。As an example, consider an educational video that explains spheres for the first 30 minutes and pyramids in the next 30 minutes. ピラミッドについて読んでいる学生にとっては、このビデオの 30 分マーカーから始まるようにビデオが配置されれば役立ちます。A student reading about pyramids would benefit more if the video is positioned starting from the 30-minute marker.

詳しくは、こちらのブログをご覧ください。For more information, see this blog.

次の手順Next steps

これで、Video Indexer の使用を開始する準備ができました。You're ready to get started with Video Indexer. 詳細については、次の記事を参照してください。For more information, see the following articles: