Udostępnij za pośrednictwem


Sceny, ujęcia i klatki kluczowe

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Usługa Azure AI Video Indexer obsługuje dzielenie filmów wideo na jednostki czasowe na podstawie właściwości strukturalnych i semantycznych. Ta funkcja umożliwia klientom łatwe przeglądanie i edytowanie zawartości wideo oraz zarządzanie nimi w oparciu o różne szczegółowości. Na przykład na podstawie scen, zdjęć i klatek kluczowych opisanych w tym temacie.

Sceny, ujęcia i klatki kluczowe

Wykrywanie scen

Usługa Azure AI Video Indexer określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia jedno zdarzenie i składa się z serii kolejnych zdjęć, które są semantycznie powiązane. Miniatura sceny to pierwsza ramka kluczowa jego bazowego strzału. Usługa Azure AI Video Indexer dzieli wideo na sceny w oparciu o spójność kolorów między kolejnymi zrzutami i pobiera początek i godzinę zakończenia każdej sceny. Wykrywanie scen jest uważane za trudne zadanie, ponieważ obejmuje kwantyfikację semantycznych aspektów filmów wideo.

Uwaga

Dotyczy filmów wideo zawierających co najmniej 3 sceny.

Wykrywanie strzałów

Usługa Azure AI Video Indexer określa, kiedy film zmienia się na podstawie podpowiedzi wizualnych, śledząc zarówno nagłe, jak i stopniowe przejścia w schemacie kolorów sąsiednich ramek. Metadane strzału obejmują godzinę rozpoczęcia i zakończenia, a także listę klatek kluczowych uwzględnionych w tym zdjęciu. Zdjęcia są kolejnymi klatkami pobranymi z tego samego aparatu w tym samym czasie.

Wykrywanie klatek kluczowych

Usługa Azure AI Video Indexer wybiera ramki, które najlepiej reprezentują poszczególne zdjęcia. Klatki kluczowe to reprezentatywne ramki wybrane z całego filmu wideo na podstawie właściwości estetycznych (na przykład kontrast i stabilność). Usługa Azure AI Video Indexer pobiera listę identyfikatorów ramek kluczowych w ramach metadanych strzału, na podstawie których klienci mogą wyodrębnić ramkę kluczową jako obraz o wysokiej rozdzielczości.

Wyodrębnianie ramek kluczowych

Aby wyodrębnić ramki kluczowe o wysokiej rozdzielczości dla wideo, musisz najpierw przekazać i zaindeksować wideo.

Klatek kluczowych

Witryna internetowa usługi Azure AI Video Indexer

Aby wyodrębnić ramki kluczowe przy użyciu witryny internetowej usługi Azure AI Video Indexer, przekaż i zaindeksuj wideo. Po zakończeniu zadania indeksowania kliknij przycisk Pobierz i wybierz pozycję Artefakty (ZIP). Spowoduje to pobranie folderu artefaktów na komputer (pamiętaj, aby wyświetlić ostrzeżenie dotyczące artefaktów poniżej). Rozpakuj i otwórz folder. W folderze _KeyframeThumbnail znajdziesz wszystkie ramki kluczowe wyodrębnione z wideo.

Zrzut ekranu przedstawiający listę rozwijaną

Ostrzeżenie

Nie zalecamy używania danych bezpośrednio z folderu artifacts w celach produkcyjnych. Artefakty to pośrednie dane wyjściowe procesu indeksowania. Są to zasadniczo nieprzetworzone dane wyjściowe różnych aparatów sztucznej inteligencji, które analizują filmy wideo; schemat artefaktów może ulec zmianie w czasie. Zaleca się użycie interfejsu API pobierania usługi Video Index zgodnie z opisem w temacie Uzyskiwanie szczegółowych informacji i artefaktów generowanych przez interfejs API.

Za pomocą interfejsu API usługi Azure AI Video Indexer

Aby uzyskać ramki kluczowe przy użyciu interfejsu API usługi Video Indexer, przekaż i zaindeksuj wideo przy użyciu wywołania przekazywania wideo . Po zakończeniu zadania indeksowania wywołaj metodę Pobierz indeks wideo. Dzięki temu uzyskasz wszystkie szczegółowe informacje wyodrębnione z zawartości w pliku JSON przez usługę Video Indexer.

Otrzymasz listę identyfikatorów klatek kluczowych w ramach metadanych każdego zdjęcia.

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

Teraz należy uruchomić każdy z tych identyfikatorów ramki kluczy w wywołaniu Pobierz miniatury . Spowoduje to pobranie każdego z obrazów klatki kluczowej na komputer.

Wykrywanie typów zdjęć redakcyjnych

Ramki kluczowe są skojarzone ze strzałami w wyjściowym formacie JSON.

Typ strzału skojarzony z pojedynczym strzałem w formacie JSON szczegółowych informacji reprezentuje jego typ redakcyjny. Te cechy typu zdjęć mogą być przydatne podczas edytowania filmów wideo w klipach, zwiastunach lub podczas wyszukiwania określonego stylu klatki kluczowej do celów artystycznych. Różne typy są określane na podstawie analizy pierwszej ramki kluczowej każdego strzału. Zdjęcia są identyfikowane przez skalę, rozmiar i lokalizację twarzy wyświetlanych w pierwszej klatce kluczowej.

Rozmiar i skala zdjęć są określane na podstawie odległości między kamerą a twarzami wyświetlanymi w ramce. Korzystając z tych właściwości, usługa Azure AI Video Indexer wykrywa następujące typy zdjęć:

  • Szeroki: pokazuje ciało całej osoby.
  • Średni: pokazuje górną część ciała i twarz osoby.
  • Zbliżenie: głównie pokazuje twarz osoby.
  • Skrajne zbliżenie: pokazuje twarz osoby wypełniającej ekran.

Typy strzałów można również określić według lokalizacji znaków tematu w odniesieniu do środka ramki. Ta właściwość definiuje następujące typy zdjęć w usłudze Azure AI Video Indexer:

  • Lewa twarz: osoba pojawia się po lewej stronie ramki.
  • Środkowa twarz: osoba pojawia się w centralnym regionie ramki.
  • Prawa twarz: osoba pojawia się po prawej stronie ramy.
  • Na świeżym powietrzu: osoba pojawia się na świeżym powietrzu.
  • Wewnątrz: osoba pojawia się w pomieszczeniu.

Dodatkowe cechy:

  • Dwa zdjęcia: pokazuje twarze dwóch osób o średnim rozmiarze.
  • Wiele twarzy: więcej niż dwie osoby.