Översikt över Azure AI Video Indexer

Azure AI Video Indexer är ett molnprogram som ingår i Azure AI-tjänster som bygger på Azure AI-tjänster (till exempel Ansiktsigenkänning, Translator, Azure AI Vision och Speech). Det gör att du kan extrahera insikterna från dina videor med hjälp av video- och ljudmodeller i Azure AI Video Indexer.

Azure AI Video Indexer analyserar video- och ljudinnehållet genom att köra över 30 AI-modeller, vilket genererar omfattande insikter. Här är en bild av ljud- och videoanalysen som utförs av Azure AI Video Indexer i bakgrunden:

Diagram över Azure AI Video Indexer-flödet.

Information om hur du börjar extrahera insikter med Azure AI Video Indexer finns i avsnittet hur jag kommer igång .

Vad kan jag göra med Azure AI Video Indexer?

Azure AI Video Indexer-insikter kan tillämpas på många scenarier:

  • Djupsökning: Använd insikterna som extraherats från videon för att förbättra sökupplevelsen i ett videobibliotek. Indexering av talade ord och ansikten kan till exempel göra det möjligt att söka efter ögonblick i en video där en person talade vissa ord eller när två personer sågs tillsammans. Sökning baserat på sådana insikter från videor gäller för nyhetsbyråer, utbildningsinstitut, programföretag, ägare av underhållningsinnehåll, företagsspecifika appar och i allmänhet för alla branscher som har ett videobibliotek som användarna behöver söka efter.
  • Skapa innehåll: Skapa trailers, markera hjul, innehåll på sociala medier eller nyhetsklipp baserat på insikterna som Azure AI Video Indexer extraherar från ditt innehåll. Nyckelramar, scenmarkörer och tidsstämplar för personer och etikettutseenden gör processen smidigare och enklare så att du enkelt kan komma åt de delar av videon som du behöver när du skapar innehåll.
  • Hjälpmedel: Om du vill göra ditt innehåll tillgängligt för personer med funktionshinder eller om du vill att ditt innehåll ska distribueras till olika regioner med olika språk kan du använda transkriptionen och översättningen som tillhandahålls av Azure AI Video Indexer på flera språk.
  • Intäktsgenerering: Azure AI Video Indexer kan hjälpa till att öka värdet på videor. Branscher som förlitar sig på annonsintäkter (nyhetsmedier, sociala medier och så vidare) kan till exempel leverera relevanta annonser med hjälp av de extraherade insikterna som ytterligare signaler till annonsservern.
  • Con tältläge ration: Använd modeller för text och visuella tältläge för att skydda användarna från olämpligt innehåll och verifiera att innehållet du publicerar matchar organisationens värden. Du kan automatiskt blockera vissa videor eller varna användarna om innehållet.
  • Rekommendationer: Videoinsikter kan användas för att förbättra användarnas engagemang genom att markera relevanta videoögonblick för användarna. Genom att tagga varje video med ytterligare metadata kan du rekommendera användarna de mest relevanta videorna och markera de delar av videon som matchar deras behov.

Video-/ljud-AI-funktioner

I följande lista visas de insikter som du kan hämta från dina video-/ljudfiler med hjälp av Azure AI Video Indexer-video- och ljud-AI-funktioner (modeller).

Om inget annat anges är en modell allmänt tillgänglig.

Videomodeller

  • Ansiktsigenkänning: Identifierar och grupperar ansikten som visas i videon.

  • Kändisidentifiering: Identifierar över 1 miljon kändisar – som världsledare, skådespelare, konstnärer, idrottare, forskare, företag och teknikledare över hela världen. Data om dessa kändisar finns också på olika webbplatser (IMDB, Wikipedia och så vidare).

  • Kontobaserad ansiktsidentifiering: Tränar en modell för ett specifikt konto. Sedan identifieras ansikten i videon baserat på den tränade modellen. Mer information finns i Anpassa en personmodell från Webbplatsen för Azure AI Video Indexer och Anpassa en personmodell med Azure AI Video Indexer API.

  • Extrahering av miniatyrer för ansikten: Identifierar det bästa insamlade ansiktet i varje grupp med ansikten (baserat på kvalitet, storlek och frontposition) och extraherar det som en bildtillgång.

  • Optisk teckenigenkänning (OCR): Extraherar text från bilder som bilder, gatuskyltar och produkter i mediefiler för att skapa insikter.

  • Moderering av visuellt innehåll: Identifierar vuxna och/eller vågade visuella objekt.

  • Identifiering av etiketter: Identifierar visuella objekt och åtgärder som visas.

  • Scensegmentering: Avgör när en scen ändras i video baserat på visuella tips. En scen visar en enda händelse och den består av en serie på varandra följande bilder, som är semantiskt relaterade.

  • Bildidentifiering: Avgör när ett skott ändras i video baserat på visuella tips. Ett skott är en serie ramar tagna från samma filmkamera. Mer information finns i Scener, bilder och nyckelrutor.

  • Identifiering av svarta bildrutor: Identifierar svarta bildrutor som visas i videon.

  • Extrahering av bildrutor: Identifierar stabila nyckelbilder i en video.

  • Rullande krediter: Identifierar början och slutet av de rullande krediterna i slutet av TV-program och filmer.

  • Identifiering av typ av redaktionellt skott: Taggar skott baserat på deras typ (som brett skott, medelskott, närbild, extrem närbild, två skott, flera personer, utomhus och inomhus och så vidare). Mer information finns i Identifiering av typ av redaktionell bild.

  • Spårning av observerade personer (förhandsversion): Identifierar observerade personer i videor och tillhandahåller information som personens plats i videoramen (med avgränsningsrutor) och den exakta tidsstämpeln (start, slut) och förtroende när en person visas. Mer information finns i Spåra observerade personer i en video.

    • Personer upptäckta kläder (förhandsversion): Identifierar klädtyper av personer som visas i videon och ger information som långa eller korta ärmar, långa eller korta byxor och kjol eller klänning. De identifierade kläderna är associerade med de personer som bär den och den exakta tidsstämpeln (start, slut) tillsammans med en konfidensnivå för identifieringen tillhandahålls. Mer information finns i identifierade kläder.
    • Aktuella kläder (förhandsversion): Fångar aktuella klädbilder som visas i en video. Du kan förbättra dina målannonser med hjälp av den aktuella klädinsikten. Information om hur de aktuella klädbilderna rangordnas och hur du får insikter finns i aktuella kläder.
  • Matchad person (förhandsversion): Matchar personer som observerades i videon med motsvarande ansikten identifierade. Matchningen mellan de observerade personerna och ansiktena innehåller en konfidensnivå.

  • Objektidentifiering Identifierar unika objekt som också spåras så att de identifieras om de återgår till ramen. Se Objektidentifiering för Azure AI Video Indexer

  • Skifferidentifiering (förhandsversion): Identifierar följande insikter efter produktion när du indexerar en video med hjälp av det avancerade indexeringsalternativet:

    • Clapperboard-identifiering med extrahering av metadata.
    • Identifiering av digitala mönster, inklusive färgstaplar.
    • Textlös skifferidentifiering, inklusive scenmatchning.

    Mer information finns i Skifferidentifiering.

  • Identifiering av textlogotyp (förhandsversion): Matchar en specifik fördefinierad text med hjälp av Azure AI Video Indexer OCR. Om en användare till exempel har skapat en textlogotyp: "Microsoft" identifieras olika utseenden av ordet Microsoft som "Microsoft"-logotypen. Mer information finns i Identifiera textlogotyp.

Ljudmodeller

  • Ljudavskrift: Konverterar tal till text över 50 språk och tillåter tillägg. Mer information finns i Språkstöd för Azure AI Video Indexer.

  • Automatisk språkidentifiering: Identifierar det dominerande talade språket. Mer information finns i Språkstöd för Azure AI Video Indexer. Om språket inte kan identifieras med säkerhet förutsätter Azure AI Video Indexer att det talade språket är engelska. Mer information finns i Modell för språkidentifiering.

  • Talidentifiering och transkription på flera språk: Identifierar det talade språket i olika segment från ljud. Tjänsten skickar varje segment av mediefilen som ska transkriberas, och sedan kombineras transkriptionerna till en enda transkription. Mer information finns i Identifiera och transkribera innehåll på olika språk automatiskt.

  • Textning: Skapar textning i tre format: VTT, TTML och SRT.

  • Två kanalbearbetning: Automatiskt identifierar separata avskrifter och sammanfogar till en enda tidslinje.

  • Brusreducering: Rensar telefoniljud eller inspelningar med störningar (baserat på Skype-filter).

  • Transkriptionsanpassning (CRIS): Tränar anpassat tal till textmodeller för att skapa branschspecifika transkriptioner. Mer information finns i Anpassa en språkmodell från Webbplatsen för Azure AI Video Indexer och Anpassa en språkmodell med Api:erna för Azure AI Video Indexer.

  • Talaruppräkning: Mappar och förstår vilken talare som sa vilka ord och när. Sexton talare kan identifieras i en enda ljudfil.

  • Talarstatistik: Innehåller statistik för talarnas talförhållanden.

  • Moderering av textinnehåll: Identifierar stötande text i ljudavskriften.

  • Textbaserad känsloidentifiering: Känslor som glädje, sorg, ilska och rädsla som upptäcktes via transkriptionsanalys.

  • Översättning: Skapar översättningar av ljudavskriften till många olika språk. Mer information finns i Språkstöd för Azure AI Video Indexer.

  • Identifiering av ljudeffekter (förhandsversion): Identifierar följande ljudeffekter i icke-talsegmenten i innehållet: larm eller siren, hundskällande, publikreaktioner (jubel, klapprande och buande), skott eller explosion, skratt, glasbrytning och tystnad.

    De identifierade akustiska händelserna finns i den stängda bildtext s-filen. Filen kan laddas ned från Webbplatsen för Azure AI Video Indexer. Mer information finns i Identifiering av ljudeffekter.

    Kommentar

    Den fullständiga uppsättningen händelser är endast tillgänglig när du väljer Avancerad ljudanalys när du laddar upp en fil i förinställningen för uppladdning. Som standard identifieras endast tystnad.

Ljud- och videomodeller (flera kanaler)

När du indexerar efter en kanal är partiella resultat för dessa modeller tillgängliga.

  • Extrahering av nyckelord: Extraherar nyckelord från tal och visuell text.
  • Extrahering av namngivna entiteter: Extraherar varumärken, platser och personer från tal- och visuell text via bearbetning av naturligt språk (NLP).
  • Ämnesslutsats: Extraherar ämnen baserat på olika nyckelord (det vill: nyckelorden "Börs", "Wall Street" producerar ämnet "Economics"). Modellen använder tre olika ontologier (IPTC, Wikipedia och det hierarkiska ämnet ontologi för Video Indexer). Modellen använder transkription (talade ord), OCR-innehåll (visuell text) och kändisar som identifieras i videon med hjälp av videoindexerarens ansiktsigenkänningsmodell.
  • Artefakter: Extraherar en omfattande uppsättning ”nästa detaljnivå”-artefakter för de olika modellerna.
  • Attitydanalys: Identifierar positiva, negativa och neutrala attityder i tal och visuell text.

Hur kommer jag igång med Azure AI Video Indexer?

Lär dig hur du kommer igång med Azure AI Video Indexer.

När du har konfigurerat kan du börja använda insikter och kolla in andra guider.

Efterlevnad, sekretess och säkerhet

Kommentar

Den 11 juni 2020 meddelade Microsoft att de inte kommer att sälja teknik för ansiktsigenkänning till polismyndigheter i USA förrän starka föreskrifter som rör användningen av dessa tekniker och som bygger på de mänskliga rättigheterna har införts. Därför får kunder inte använda ansiktsigenkänningsfunktioner eller funktioner som ingår i Azure AI-tjänster, till exempel Ansiktsigenkänning eller Video Indexer, om en kund är, eller tillåter användning av sådana tjänster av eller för, en polisavdelning i USA.

Kommentar

Åtkomst till funktioner för ansiktsidentifiering, anpassning och kändisigenkänning är begränsad baserat på berättigande- och användningskriterier för att stödja våra principer för ansvarsfull AI. Funktioner för ansiktsidentifiering, anpassning och kändisigenkänning är endast tillgängliga för Microsofts hanterade kunder och partner. Använd formuläret ansiktsigenkänning för att ansöka om åtkomst.

Som en viktig påminnelse måste du följa alla tillämpliga lagar i din användning av Azure AI Video Indexer och du får inte använda Azure AI Video Indexer eller någon Azure-tjänst på ett sätt som kränker andras rättigheter, eller som kan vara skadligt för andra.

Innan du laddar upp en video/bild till Azure AI Video Indexer måste du ha rätt behörighet att använda videon/bilden, inklusive, om det krävs enligt lag, alla nödvändiga medgivanden från enskilda personer (om några) i videon/bilden, för användning, bearbetning och lagring av deras data i Azure AI Video Indexer och Azure. Vissa jurisdiktioner kan införa särskilda rättsliga krav för insamling, onlinebearbetning och lagring av vissa kategorier av data, till exempel biometriska data. Innan du använder Azure AI Video Indexer och Azure för bearbetning och lagring av data som omfattas av särskilda juridiska krav måste du se till att alla sådana juridiska krav som kan gälla för dig uppfylls.

Mer information om efterlevnad, sekretess och säkerhet i Azure AI Video Indexer finns i Microsoft Trust Center. För Microsofts sekretesskrav, datahanterings- och kvarhållningsmetoder, inklusive hur du tar bort dina data, kan du läsa Microsofts sekretesspolicy, onlinetjänstvillkoren ("OST") och tillägg för databehandling ("DPA"). Genom att använda Azure AI Video Indexer samtycker du till att vara bunden av OST, DPA och sekretesspolicyn.