シーン、ショット、キーフレームScenes, shots, and keyframes

Video Indexer では、構造とセマンティックのプロパティに基づくビデオのテンポラル単位へのセグメント化がサポートされています。Video Indexer supports segmenting videos into temporal units based on structural and semantic properties. この機能を使用すると、さまざまな粒度に基づいてビデオ コンテンツを簡単に参照、管理、編集できます。This capability enables customers to easily browse, manage, and edit their video content based on varying granularities. たとえば、このトピックの説明はシーン、ショット、キーフレームに基づいています。For example, based on scenes, shots, and keyframes, described in this topic.

シーン、ショット、キーフレーム

シーン検出Scene detection

Video Indexer では、視覚的な手掛かりに基づいて、ビデオ内でシーンが変化するタイミングが判定されます。シーンは単一のイベントを表し、意味的に関連する一連の連続したショットで構成されます。Video Indexer determines when a scene changes in video based on visual cues. A scene depicts a single event and it is composed of a series of consecutive shots, which are semantically related. シーンのサムネイルは、その基になるショットの最初のキーフレームです。A scene thumbnail is the first keyframe of its underlying shot. Video Indexer では、連続するショット間の色の一貫性に基づいてビデオがシーンにセグメント化され、各シーンの開始と終了の時間が取得されます。Video indexer segments a video into scenes based on color coherence across consecutive shots and retrieves the beginning and end time of each scene. シーンの検出は、ビデオのセマンティックな側面を定量化する必要があるので、困難な作業と見なされます。Scene detection is considered a challenging task as it involves quantifying semantic aspects of videos.

注意

少なくとも 3 つのシーンが含まれるビデオに適用されます。Applicable to videos that contain at least 3 scenes.

ショット検出Shot detection

Video Indexer では、連続するフレームの配色での突然の遷移と段階的な遷移の両方を追跡することにより、視覚的な手掛かりに基づいてビデオでのショットの変化が特定されます。Video Indexer determines when a shot changes in the video based on visual cues, by tracking both abrupt and gradual transitions in the color scheme of adjacent frames. ショットのメタデータには、開始と終了の時間、およびそのショットに含まれるキーフレームのリストが含まれます。The shot's metadata includes a start and end time, as well as the list of keyframes included in that shot. ショットは、同時に同じカメラで撮影された連続するフレームです。The shots are consecutive frames taken from the same camera at the same time.

キーフレームの検出Keyframe detection

Video Indexer により、各ショットを最適に表すフレームが選択されます。Video Indexer selects the frame(s) that best represent each shot. キーフレームは、審美的プロパティ (たとえば、コントラストや安定性) に基づいてビデオ全体から選択された代表的なフレームです。Keyframes are the representative frames selected from the entire video based on aesthetic properties (for example, contrast and stableness). Video Indexer により、ショットのメタデータの一部としてキーフレーム ID のリストが取得されます。顧客は、これに基づいてキーフレームを高解像度画像として抽出できます。Video Indexer retrieves a list of keyframe IDs as part of the shot's metadata, based on which customers can extract the keyframe as a high resolution image.

キーフレームの抽出Extracting Keyframes

ビデオの高解像度のキーフレームを抽出するには、まずビデオをアップロードしてインデックスを作成する必要があります。To extract high-resolution keyframes for your video, you must first upload and index the video.

キーフレーム

Video Indexer Web サイトの使用With the Video Indexer website

Video Indexer web サイトを使用してキーフレームを抽出するには、ビデオをアップロードしてインデックスを作成します。To extract keyframes using the Video Indexer website, upload and index your video. インデックス作成ジョブが完了したら、 [ダウンロード] ボタンをクリックし、 [成果物 (ZIP)] を選択します。Once the indexing job is complete, click on the Download button and select Artifacts (ZIP). これにより、[成果物] フォルダーがコンピューターにダウンロードされます。This will download the artifacts folder to your computer.

[ダウンロード] ドロップダウンを示すスクリーンショット。[成果物] が選択されています。

フォルダーを解凍して開きます。Unzip and open the folder. _KeyframeThumbnail フォルダーに、ビデオから抽出されたすべてのキーフレームが表示されます。In the _KeyframeThumbnail folder, and you will find all of the keyframes that were extracted from your video.

Video Indexer API の使用With the Video Indexer API

Video Indexer API を使用してキーフレームを取得するには Upload Video 呼び出しを使用してビデオをアップロードし、インデックスを作成します。To get keyframes using the Video Indexer API, upload and index your video using the Upload Video call. インデックス作成ジョブが完了したら、Get Video Index を呼び出します。Once the indexing job is complete, call Get Video Index. これにより、JSON ファイル内のコンテンツから抽出された Video Indexer すべての分析情報が得られます。This will give you all of the insights that Video Indexer extracted from your content in a JSON file.

各ショットのメタデータの一部として、キーフレーム ID の一覧が表示されます。You will get a list of keyframe IDs as part of each shot's metadata.

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

次に、Get Thumbnails 呼び出しで、これらのキーフレーム ID をそれぞれ実行する必要があります。You will now need to run each of these keyframe IDs on the Get Thumbnails call. これにより、各キーフレームのイメージがコンピューターにダウンロードされます。This will download each of the keyframe images to your computer.

編集ショット タイプの検出Editorial shot type detection

キーフレームは、出力 JSON のショットと関連付けられます。Keyframes are associated with shots in the output JSON.

Insights JSON 内の個々のショットに関連付けられたショット タイプは、その編集タイプを表します。The shot type associated with an individual shot in the insights JSON represents its editorial type. これらのショット タイプ特性は、ビデオを編集してクリップやトレーラーを作成したり、芸術的な目的で特定のスタイルのキーフレームを検索したりするときに便利な場合があります。You may find these shot type characteristics useful when editing videos into clips, trailers, or when searching for a specific style of keyframe for artistic purposes. 各ショットの最初のキーフレームの分析に基づいて、さまざまなタイプが決定されます。The different types are determined based on analysis of the first keyframe of each shot. ショットは最初のキーフレームに表示される顔のスケール、サイズ、位置によって識別されます。Shots are identified by the scale, size, and location of the faces appearing in their first keyframe.

ショットのサイズとスケールは、カメラとフレームに表示される顔との距離に基づいて決定されます。The shot size and scale are determined based on the distance between the camera and the faces appearing in the frame. これらのプロパティを使用して、Video Indexer は次のショット タイプを検出します。Using these properties, Video Indexer detects the following shot types:

  • ワイド: 人物の全身が表示されます。Wide: shows an entire person’s body.
  • ミディアム: 人物の上半身と顔が表示されます。Medium: shows a person's upper-body and face.
  • クローズアップ: 人物の顔が主に表示されます。Close up: mainly shows a person’s face.
  • エクストリーム クローズアップ: 人物の顔が画面いっぱいに表示されます。Extreme close-up: shows a person’s face filling the screen.

ショット タイプは、フレームの中心を基準としたときの対象の人物の位置によって決定することもできます。Shot types can also be determined by location of the subject characters with respect to the center of the frame. このプロパティは、Video Indexer で次のショット タイプを定義します。This property defines the following shot types in Video Indexer:

  • 左フェース: 人物がフレームの左側に表示されます。Left face: a person appears in the left side of the frame.
  • 中央フェース: 人物がフレームの中央領域に表示されます。Center face: a person appears in the central region of the frame.
  • 右フェース: 人物がフレームの右側に表示されます。Right face: a person appears in the right side of the frame.
  • 屋外: 人物が屋外の背景で表示されます。Outdoor: a person appears in an outdoor setting.
  • 室内: 人物が屋内の背景で表示されます。Indoor: a person appears in an indoor setting.

追加の特性:Additional characteristics:

  • 2 ショット: 2 人の人物の中間サイズの顔を示します。Two shots: shows two persons’ faces of medium size.
  • 複数の顔: 人物が 3 人以上。Multiple faces: more than two persons.

次のステップNext steps

API によって生成される Video Indexer の出力の詳細Examine the Video Indexer output produced by the API