Omówienie usługi Azure AI Video Indexer

Artykuł
03/22/2024

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Azure AI Video Indexer to aplikacja w chmurze, część usług Azure AI, oparta na usługach azure AI (takich jak rozpoznawanie twarzy, translator, usługa Azure AI Vision i mowa). Umożliwia wyodrębnianie szczegółowych informacji z filmów wideo przy użyciu modeli wideo i audio usługi Azure AI Video Indexer.

Usługa Azure AI Video Indexer analizuje zawartość wideo i audio, uruchamiając modele 30+ AI, generując szczegółowe informacje. Oto ilustracja przedstawiająca analizę audio i wideo wykonywaną przez usługę Azure AI Video Indexer w tle:

Aby rozpocząć wyodrębnianie szczegółowych informacji za pomocą usługi Azure AI Video Indexer, zobacz sekcję jak rozpocząć pracę .

Co mogę zrobić za pomocą usługi Azure AI Video Indexer?

Szczegółowe informacje usługi Azure AI Video Indexer można zastosować do wielu scenariuszy:

Głębokie wyszukiwanie: użyj szczegółowych informacji wyodrębnionych z wideo, aby ulepszyć środowisko wyszukiwania w bibliotece wideo. Na przykład indeksowanie wypowiedzianych słów i twarzy może umożliwić wyszukiwanie momentów w filmie wideo, w którym dana osoba mówiła pewne słowa lub kiedy dwie osoby były postrzegane razem. Wyszukiwanie na podstawie takich szczegółowych informacji z filmów ma zastosowanie do agencji informacyjnych, instytutów edukacyjnych, nadawców, właścicieli zawartości rozrywki, aplikacji biznesowych dla przedsiębiorstw i ogólnie dla każdej branży, która ma bibliotekę wideo, którą użytkownicy muszą wyszukiwać.
Tworzenie zawartości: tworzenie zwiastunów, wyróżnianie bębnów, zawartość w mediach społecznościowych lub klipy informacyjne na podstawie szczegółowych informacji wyodrębnianych z zawartości przez usługę Azure AI Video Indexer. Ramki kluczowe, znaczniki scen i znaczniki czasowe wyglądu osób i etykiet sprawiają, że proces tworzenia jest łagodniejszy i łatwiejszy, dzięki czemu można łatwo uzyskać dostęp do potrzebnych części wideo podczas tworzenia zawartości.
Ułatwienia dostępu: niezależnie od tego, czy chcesz udostępnić zawartość osobom niepełnosprawnym, czy też chcesz, aby zawartość została rozpowszechniona w różnych regionach przy użyciu różnych języków, możesz użyć transkrypcji i tłumaczenia dostarczonego przez usługę Azure AI Video Indexer w wielu językach.
Zarabianie: usługa Azure AI Video Indexer może pomóc zwiększyć wartość filmów wideo. Na przykład branże korzystające z przychodów z reklam (mediów informacyjnych, mediów społecznościowych itd.) mogą dostarczać odpowiednie reklamy przy użyciu wyodrębnionych szczegółowych informacji jako dodatkowych sygnałów do serwera reklam.
Con tryb namiotu ration: Użyj modeli kon tryb namiotu ration tekstowych i wizualnych, aby zapewnić użytkownikom bezpieczeństwo przed nieodpowiednią zawartością i sprawdzić, czy opublikowana zawartość jest zgodna z wartościami organizacji. Możesz automatycznie zablokować niektóre filmy wideo lub powiadomić użytkowników o zawartości.
Rekomendacje: Szczegółowe informacje wideo mogą służyć do poprawy zaangażowania użytkowników, podkreślając odpowiednie momenty wideo dla użytkowników. Tagując każde wideo z dodatkowymi metadanymi, możesz polecić użytkownikom najbardziej odpowiednie filmy wideo i wyróżnić części filmu wideo zgodne z ich potrzebami.

Funkcje sztucznej inteligencji wideo/audio

Na poniższej liście przedstawiono szczegółowe informacje, które można pobrać z plików wideo/audio przy użyciu funkcji usługi Azure AI Video Indexer i audio AI (modele).

Jeśli nie określono inaczej, model jest ogólnie dostępny.

Modele wideo

Wykrywanie twarzy: wykrywa i grupuje twarze pojawiające się w nagraniu wideo.
Identyfikacja osobistości: identyfikuje ponad 1 milion gwiazd — takich jak światowi liderzy, aktorzy, artyści, sportowcy, naukowcy, biznes i liderzy technologii na całym świecie. Dane o tych celebrytach można również znaleźć na różnych stronach internetowych (IMDB, Wikipedia itd.).
Identyfikacja twarzy na podstawie konta: trenuje model dla określonego konta. Następnie rozpoznaje twarze w filmie wideo na podstawie wytrenowanego modelu. Aby uzyskać więcej informacji, zobacz Dostosowywanie modelu osoby z witryny internetowej usługi Azure AI Video Indexer i Dostosowywanie modelu osoby przy użyciu interfejsu API usługi Azure AI Video Indexer.
Wyodrębnianie miniatur dla twarzy: identyfikuje najlepszą przechwyconą twarz w każdej grupie twarzy (na podstawie jakości, rozmiaru i pozycji przedniej) i wyodrębnia ją jako element zawartości obrazu.
Optyczne rozpoznawanie znaków (OCR): wyodrębnia tekst z obrazów, takich jak obrazy, znaki uliczne i produkty w plikach multimedialnych, aby tworzyć szczegółowe informacje.
Moderowanie zawartości wizualnej: wykrywa widoczną zawartość dla dorosłych i/lub erotyczną.
Identyfikowanie etykiet: identyfikuje widoczne obiekty i czynności.
Segmentacja sceny: określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia pojedyncze zdarzenie i składa się z serii kolejnych zdjęć, które są semantycznie powiązane.
Wykrywanie strzałów: określa, kiedy film zmienia się na podstawie podpowiedzi wizualnych. Strzał jest serią klatek wykonanych z tego samego aparatu filmowego. Aby uzyskać więcej informacji, zobacz Sceny, zdjęcia i ramki kluczowe.
Wykrywanie czarnych ramek: identyfikuje pojawiające się w nagraniu wideo czarne ramki.
Wyodrębnianie ramek kluczowych: wykrywa ramki kluczowe w nagraniu wideo.
Środki kroczące: określa początek i koniec kredytów kroczących na końcu programów telewizyjnych i filmów.
Wykrywanie typu strzałów redakcyjnych: Tagi strzały na podstawie ich typu (jak szeroki strzał, średni strzał, zbliżenie, ekstremalne zbliżenie, dwa strzały, wiele osób, na zewnątrz i w pomieszczeniu itd.). Aby uzyskać więcej informacji, zobacz Wykrywanie typów zdjęć redakcyjnych.
Obserwowane śledzenie osób (wersja zapoznawcza): wykrywa obserwowane osoby w filmach wideo i udostępnia informacje, takie jak lokalizacja osoby w ramce wideo (przy użyciu pól ograniczenia) oraz dokładny znacznik czasu (początek, koniec) i pewność, kiedy pojawi się dana osoba. Aby uzyskać więcej informacji, zobacz Śledzenie obserwowanych osób w filmie wideo.
- Osoby wykryta odzież (wersja zapoznawcza): Wykrywa typy odzieży osób pojawiających się w filmie i udostępnia informacje, takie jak długie lub krótkie rękawy, długie lub krótkie spodnie i spódnica lub sukienka. Wykryta odzież jest skojarzona z osobami noszącymi ją, a dokładny znacznik czasu (początek, koniec) wraz z poziomem ufności dla wykrywania. Aby uzyskać więcej informacji, zobacz wykryte ubrania.
- Polecane ubrania (wersja zapoznawcza): przechwytuje polecane obrazy odzieży wyświetlane w filmie wideo. Możesz ulepszyć reklamy docelowe, korzystając z polecanych szczegółowych informacji o ubraniach. Aby uzyskać informacje na temat sposobu klasyfikacji polecanych obrazów odzieży i sposobu uzyskiwania szczegółowych informacji, zobacz polecane ubrania.
Dopasowana osoba (wersja zapoznawcza): pasuje do osób obserwowanych w filmie wideo z wykrytymi odpowiednimi twarzami. Dopasowanie między obserwowanych osób a twarzami zawiera poziom ufności.
Wykrywanie obiektów Wykrywa unikatowe obiekty, które są również śledzone, tak aby w przypadku powrotu do rozpoznanej ramki. Zobacz Wykrywanie obiektów usługi Azure AI Video Indexer
Wykrywanie łupków (wersja zapoznawcza): identyfikuje następujące szczegółowe informacje dotyczące filmu po produkcji podczas indeksowania wideo przy użyciu opcji zaawansowanego indeksowania:
- Wykrywanie clapperboard z wyodrębnianiem metadanych.
- Wykrywanie wzorców cyfrowych, w tym pasków kolorów.
- Wykrywanie łupków bez tekstu, w tym dopasowanie sceny.
Aby uzyskać szczegółowe informacje, zobacz Wykrywanie łupków.
Wykrywanie logo tekstowego (wersja zapoznawcza): pasuje do określonego wstępnie zdefiniowanego tekstu przy użyciu usługi Azure AI Video Indexer OCR. Jeśli na przykład użytkownik utworzył logo tekstowe: "Microsoft", różne wyglądy słowa Microsoft zostaną wykryte jako logo "Microsoft ". Aby uzyskać więcej informacji, zobacz Wykrywanie logo tekstowego.

Modele audio

Transkrypcja audio: konwertuje mowę na tekst ponad 50 języków i umożliwia rozszerzenia. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer.
Automatyczne wykrywanie języka: identyfikuje dominujący język mówiony. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer. Jeśli nie można zidentyfikować języka z ufnością, usługa Azure AI Video Indexer zakłada, że język mówiony to angielski. Aby uzyskać więcej informacji, zobacz Model identyfikacji języka.
Identyfikacja i transkrypcja mowy w wielu językach: identyfikuje język mówiony w różnych segmentach od audio. Wysyła każdy segment pliku multimedialnego do transkrypcji, a następnie łączy transkrypcję z powrotem z jedną ujednoliconą transkrypcją. Aby uzyskać więcej informacji, zobacz Automatyczne identyfikowanie i transkrybowanie zawartości w wielu językach.
Napisy (transkrypcja): tworzy napisy w trzech formatach: VTT, TTML i SRT.
Przetwarzanie dwóch kanałów: Automatycznie wykrywa oddzielną transkrypcję i scala z pojedynczą osią czasu.
Redukcja szumów: oczyszcza dźwięk rozmów telefonicznych lub nagrań z szumem (na podstawie filtrów programu Skype).
Dostosowywanie transkrypcji (CRIS): Trenuje niestandardowe modele mowy na tekst w celu tworzenia transkrypcji specyficznych dla branży. Aby uzyskać więcej informacji, zobacz Dostosowywanie modelu językowego z witryny internetowej usługi Azure AI Video Indexer i Dostosowywanie modelu językowego przy użyciu interfejsów API usługi Azure AI Video Indexer.
Wyliczanie osób mówiących: mapuje i interpretuje to, które osoby mówiące i kiedy wypowiedziały poszczególne wyrazy. W jednym pliku audio można wykryć szesnaście głośników.
Statystyki osoby mówiącej: udostępnia statystyki dotyczące współczynników mowy osób mówiących.
Moderowanie zawartości tekstowej: wykrywa jawny tekst w transkrypcji audio.
Wykrywanie emocji opartych na tekście: emocje, takie jak radość, smutek, gniew i strach, które zostały wykryte za pośrednictwem analizy transkrypcji.
Tłumaczenie: tworzy tłumaczenia transkrypcji audio na wiele różnych języków. Aby uzyskać więcej informacji, zobacz Obsługa języka usługi Azure AI Video Indexer.
Wykrywanie efektów dźwiękowych (wersja zapoznawcza): wykrywa następujące efekty dźwiękowe w segmentach treści niezwiązanych z mową: alarm lub syrena, szczekanie psa, reakcje tłumu (doping, klaskanie i booing), strzał lub eksplozja, śmiech, rozbijanie szkła i milczenie.

Wykryte zdarzenia akustyczne znajdują się w zamkniętym pliku podpis. Plik można pobrać z witryny internetowej usługi Azure AI Video Indexer. Aby uzyskać więcej informacji, zobacz Wykrywanie efektów dźwiękowych.

Uwaga

Pełny zestaw zdarzeń jest dostępny tylko wtedy, gdy wybierzesz opcję Zaawansowana analiza audio podczas przekazywania pliku w ustawieniach wstępnych przekazywania. Domyślnie jest wykrywana tylko cisza.

Modele audio i wideo (wiele kanałów)

Podczas indeksowania według jednego kanału dostępne są częściowe wyniki dla tych modeli.

Wyodrębnianie słów kluczowych: wyodrębnia słowa kluczowe z wypowiedzianych słów i widocznego tekstu.
Wyodrębnianie nazwanych jednostek: wyodrębnia marki, lokalizacje i osoby z mowy i tekstu wizualnego za pomocą przetwarzania języka naturalnego (NLP).
Wnioskowanie tematu: wyodrębnia tematy na podstawie różnych słów kluczowych (czyli słów kluczowych "Giełda Papierów Wartościowych", "Wall Street" tworzy temat "Ekonomia"). Model używa trzech różnych nalogów (IPTC, Wikipedia i Video Indexer hierarchicznej tematu ontologii). Model używa transkrypcji (słów mówionych), zawartości OCR (tekstu wizualnego) i osobistości rozpoznawanych w filmie wideo przy użyciu modelu rozpoznawania twarzy usługi Video Indexer.
Artefakty: wyodrębnia rozbudowany zestaw artefaktów „następnego poziomu szczegółów” dla poszczególnych modeli.
Analiza tonacji: rozpoznaje pozytywne, negatywne i neutralne opinie w padających wypowiedziach i tekście widocznym w nagraniu wideo.

Jak rozpocząć pracę z usługą Azure AI Video Indexer?

Dowiedz się, jak rozpocząć pracę z usługą Azure AI Video Indexer.

Po skonfigurowaniu zacznij korzystać ze szczegółowych informacji i zapoznaj się z innymi przewodnikami z instrukcjami.

Zgodność, prywatność i zabezpieczenia

Uwaga

11 czerwca 2020 roku firma Microsoft ogłosiła, że nie będzie sprzedawać technologii rozpoznawania twarzy departamentom policji w Stanach Zjednoczonych, dopóki nie zostaną wdrożone ścisłe przepisy oparte na prawach człowieka. W związku z tym klienci mogą nie korzystać z funkcji rozpoznawania twarzy lub funkcji zawartych w usługach sztucznej inteligencji platformy Azure, takich jak Face lub Video Indexer, jeśli klient lub zezwala na korzystanie z takich usług przez lub dla, departamentu policji w Stany Zjednoczone.

Uwaga

Dostęp do funkcji identyfikacji twarzy, dostosowywania i rozpoznawania osobistości jest ograniczony w oparciu o kryteria uprawnień i użycia w celu obsługi naszych zasad odpowiedzialnej sztucznej inteligencji. Funkcje identyfikacji twarzy, dostosowywania i rozpoznawania osobistości są dostępne tylko dla klientów i partnerów zarządzanych przez firmę Microsoft. Użyj formularza do wprowadzania rozpoznawania twarzy, aby ubiegać się o dostęp.

Jako ważne przypomnienie, musisz przestrzegać wszystkich obowiązujących przepisów w korzystaniu z usługi Azure AI Video Indexer i nie możesz używać usługi Azure AI Video Indexer ani żadnej usługi platformy Azure w sposób naruszający prawa innych osób lub mogące być szkodliwe dla innych osób.

Przed przekazaniem dowolnego klipu wideo/obrazu do usługi Azure AI Video Indexer musisz mieć wszystkie odpowiednie prawa do korzystania z wideo/obrazu, w tym, w razie potrzeby zgodnie z prawem, wszystkie niezbędne zgody od osób fizycznych (jeśli istnieją) w filmie/obrazie, do użycia, przetwarzania i przechowywania ich danych w usłudze Azure AI Video Indexer i na platformie Azure. Niektóre jurysdykcje mogą nakładać specjalne wymagania prawne dotyczące zbierania, przetwarzania online i przechowywania niektórych kategorii danych, takich jak dane biometryczne. Przed rozpoczęciem korzystania z usługi Azure AI Video Indexer i platformy Azure do przetwarzania i przechowywania jakichkolwiek danych podlegających specjalnym wymaganiom prawnym należy zapewnić zgodność z wszelkimi takimi wymaganiami prawnymi, które mogą mieć zastosowanie do Ciebie.

Aby dowiedzieć się więcej na temat zgodności, prywatności i zabezpieczeń w usłudze Azure AI Video Indexer, odwiedź Centrum zaufania firmy Microsoft. W przypadku zobowiązań dotyczących prywatności firmy Microsoft, praktyk dotyczących obsługi danych i przechowywania, w tym sposobu usuwania danych, zapoznaj się z oświadczeniem o ochronie prywatności firmy Microsoft, postanowieniami dotyczącymi usług online ("OST") i dodatkiem do przetwarzania danych ("DPA"). Korzystając z usługi Azure AI Video Indexer, wyrażasz zgodę na powiązanie z ost, DPA i oświadczeniem o ochronie prywatności.

Omówienie usługi Azure AI Video Indexer

Co mogę zrobić za pomocą usługi Azure AI Video Indexer?

Funkcje sztucznej inteligencji wideo/audio

Modele wideo

Modele audio

Modele audio i wideo (wiele kanałów)

Jak rozpocząć pracę z usługą Azure AI Video Indexer?

Zgodność, prywatność i zabezpieczenia

Opinia

Opinia

Dodatkowe zasoby