Sceny, ujęcia i klatki kluczowe

Artykuł
03/22/2024

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Usługa Azure AI Video Indexer obsługuje dzielenie filmów wideo na jednostki czasowe na podstawie właściwości strukturalnych i semantycznych. Ta funkcja umożliwia klientom łatwe przeglądanie i edytowanie zawartości wideo oraz zarządzanie nimi w oparciu o różne szczegółowości. Na przykład na podstawie scen, zdjęć i klatek kluczowych opisanych w tym temacie.

Sceny, ujęcia i klatki kluczowe

Wykrywanie scen

Usługa Azure AI Video Indexer określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia jedno zdarzenie i składa się z serii kolejnych zdjęć, które są semantycznie powiązane. Miniatura sceny to pierwsza ramka kluczowa jego bazowego strzału. Usługa Azure AI Video Indexer dzieli wideo na sceny w oparciu o spójność kolorów między kolejnymi zrzutami i pobiera początek i godzinę zakończenia każdej sceny. Wykrywanie scen jest uważane za trudne zadanie, ponieważ obejmuje kwantyfikację semantycznych aspektów filmów wideo.

Uwaga

Dotyczy filmów wideo zawierających co najmniej 3 sceny.

Wykrywanie strzałów

Usługa Azure AI Video Indexer określa, kiedy film zmienia się na podstawie podpowiedzi wizualnych, śledząc zarówno nagłe, jak i stopniowe przejścia w schemacie kolorów sąsiednich ramek. Metadane strzału obejmują godzinę rozpoczęcia i zakończenia, a także listę klatek kluczowych uwzględnionych w tym zdjęciu. Zdjęcia są kolejnymi klatkami pobranymi z tego samego aparatu w tym samym czasie.

Wykrywanie klatek kluczowych

Usługa Azure AI Video Indexer wybiera ramki, które najlepiej reprezentują poszczególne zdjęcia. Klatki kluczowe to reprezentatywne ramki wybrane z całego filmu wideo na podstawie właściwości estetycznych (na przykład kontrast i stabilność). Usługa Azure AI Video Indexer pobiera listę identyfikatorów ramek kluczowych w ramach metadanych strzału, na podstawie których klienci mogą wyodrębnić ramkę kluczową jako obraz o wysokiej rozdzielczości.

Wyodrębnianie ramek kluczowych

Aby wyodrębnić ramki kluczowe o wysokiej rozdzielczości dla wideo, musisz najpierw przekazać i zaindeksować wideo.

Klatek kluczowych

Witryna internetowa usługi Azure AI Video Indexer

Aby wyodrębnić ramki kluczowe przy użyciu witryny internetowej usługi Azure AI Video Indexer, przekaż i zaindeksuj wideo. Po zakończeniu zadania indeksowania kliknij przycisk Pobierz i wybierz pozycję Artefakty (ZIP). Spowoduje to pobranie folderu artefaktów na komputer (pamiętaj, aby wyświetlić ostrzeżenie dotyczące artefaktów poniżej). Rozpakuj i otwórz folder. W folderze _KeyframeThumbnail znajdziesz wszystkie ramki kluczowe wyodrębnione z wideo.

Zrzut ekranu przedstawiający listę rozwijaną

Ostrzeżenie

Nie zalecamy używania danych bezpośrednio z folderu artifacts w celach produkcyjnych. Artefakty to pośrednie dane wyjściowe procesu indeksowania. Są to zasadniczo nieprzetworzone dane wyjściowe różnych aparatów sztucznej inteligencji, które analizują filmy wideo; schemat artefaktów może ulec zmianie w czasie. Zaleca się użycie interfejsu API pobierania usługi Video Index zgodnie z opisem w temacie Uzyskiwanie szczegółowych informacji i artefaktów generowanych przez interfejs API.

Za pomocą interfejsu API usługi Azure AI Video Indexer

Aby uzyskać ramki kluczowe przy użyciu interfejsu API usługi Video Indexer, przekaż i zaindeksuj wideo przy użyciu wywołania przekazywania wideo . Po zakończeniu zadania indeksowania wywołaj metodę Pobierz indeks wideo. Dzięki temu uzyskasz wszystkie szczegółowe informacje wyodrębnione z zawartości w pliku JSON przez usługę Video Indexer.

Otrzymasz listę identyfikatorów klatek kluczowych w ramach metadanych każdego zdjęcia.

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

Teraz należy uruchomić każdy z tych identyfikatorów ramki kluczy w wywołaniu Pobierz miniatury . Spowoduje to pobranie każdego z obrazów klatki kluczowej na komputer.

Wykrywanie typów zdjęć redakcyjnych

Ramki kluczowe są skojarzone ze strzałami w wyjściowym formacie JSON.

Typ strzału skojarzony z pojedynczym strzałem w formacie JSON szczegółowych informacji reprezentuje jego typ redakcyjny. Te cechy typu zdjęć mogą być przydatne podczas edytowania filmów wideo w klipach, zwiastunach lub podczas wyszukiwania określonego stylu klatki kluczowej do celów artystycznych. Różne typy są określane na podstawie analizy pierwszej ramki kluczowej każdego strzału. Zdjęcia są identyfikowane przez skalę, rozmiar i lokalizację twarzy wyświetlanych w pierwszej klatce kluczowej.

Rozmiar i skala zdjęć są określane na podstawie odległości między kamerą a twarzami wyświetlanymi w ramce. Korzystając z tych właściwości, usługa Azure AI Video Indexer wykrywa następujące typy zdjęć:

Szeroki: pokazuje ciało całej osoby.
Średni: pokazuje górną część ciała i twarz osoby.
Zbliżenie: głównie pokazuje twarz osoby.
Skrajne zbliżenie: pokazuje twarz osoby wypełniającej ekran.

Typy strzałów można również określić według lokalizacji znaków tematu w odniesieniu do środka ramki. Ta właściwość definiuje następujące typy zdjęć w usłudze Azure AI Video Indexer:

Lewa twarz: osoba pojawia się po lewej stronie ramki.
Środkowa twarz: osoba pojawia się w centralnym regionie ramki.
Prawa twarz: osoba pojawia się po prawej stronie ramy.
Na świeżym powietrzu: osoba pojawia się na świeżym powietrzu.
Wewnątrz: osoba pojawia się w pomieszczeniu.

Dodatkowe cechy:

Dwa zdjęcia: pokazuje twarze dwóch osób o średnim rozmiarze.
Wiele twarzy: więcej niż dwie osoby.

Udostępnij za pośrednictwem

Sceny, ujęcia i klatki kluczowe

Wykrywanie scen

Wykrywanie strzałów

Wykrywanie klatek kluczowych

Wyodrębnianie ramek kluczowych

Witryna internetowa usługi Azure AI Video Indexer

Za pomocą interfejsu API usługi Azure AI Video Indexer

Wykrywanie typów zdjęć redakcyjnych

Opinia

Opinia

Dodatkowe zasoby