Vad är Video Analyzer för media?

Varning

Den 11 juni 2020 meddelade Microsoft att de inte kommer att sälja teknik för ansiktsigenkänning till polismyndigheter i USA förrän starka föreskrifter som rör användningen av dessa tekniker och som bygger på de mänskliga rättigheterna har införts. Därför kan kunder inte använda funktioner för ansiktsigenkänning som ingår i Azure Video Analyze, till exempel Ansiktsigenkänning eller Azure Video Analyzer för media (tidigare Video Indexer), om en kund är eller tillåter användning av sådana tjänster av eller för en polisavdelning på USA.

Azure Video Analyzer for Media (tidigare Video Indexer) är ett molnprogram som ingår i Azure Applied AI Services som bygger på Azure Media Services och Azure Cognitive Services (till exempel ansiktsigenkänning, Translator, Visuellt innehåll och tal). Det gör att du kan extrahera insikter från dina videor med videoanalysverktyg för medievideo och ljudmodeller.

Om du vill börja extrahera insikter med Video Analyzer for Media måste du skapa ett konto och ladda upp videor. När du laddar upp dina videor till Video Analyzer for Media analyseras både visuella objekt och ljud genom att köra olika AI-modeller. När Video Analyzer for Media analyserar din video, kommer de insikter som extraheras av AI-modellerna.

När du skapar ett Video Analyzer for Media-konto och ansluter det till Media Services lagras medie- och metadatafilerna i det Azure Storage-konto som är associerat med det Media Services-kontot. Mer information finns i Skapa ett Video Analyzer for Media-konto som är anslutet till Azure.

Följande diagram är en illustration och inte en teknisk förklaring av hur Video Analyzer for Media fungerar i backend.

Diagram över Video Analyzer för medieflöde

Efterlevnad, sekretess och säkerhet

Som en viktig påminnelse måste du följa alla tillämpliga lagar i din användning av Video Analyzer for Media, och du får inte använda Video Analyzer för media eller någon Azure-tjänst på ett sätt som strider mot andras rättigheter eller som kan vara skadligt för andra.

Innan du laddar upp en video/bild till Video Analyzer for Media måste du ha rätt behörighet att använda videon/bilden, inklusive, där det krävs enligt lag, alla nödvändiga medgivanden från enskilda personer (om det finns några) i videon/bilden för användning, bearbetning och lagring av data i Video Analyzer för media och Azure. Vissa jurisdiktioner kan införa särskilda juridiska krav för insamling, onlinebearbetning och lagring av vissa kategorier av data, till exempel biometriska data. Innan du använder Video Analyzer för media och Azure för bearbetning och lagring av data som omfattas av särskilda juridiska krav måste du se till att alla sådana juridiska krav som gäller för dig efterlevs.

Mer information om efterlevnad, sekretess och säkerhet i Video Analyzer for Media finns i Microsoft Trust Center. För Microsofts sekretesskrav, datahantering och kvarhållningspraxis, inklusive hur du tar bort dina data, kan du läsa Microsofts sekretesspolicy, Villkor för Onlinetjänster ("OST") och tillägget för databehandling ("DPA"). Genom att använda Video Analyzer för media samtycker du till att vara bunden av OST, DPA och sekretesspolicyn.

Vad kan jag göra med Video Analyzer för media?

Video Analyzer for Medias insikter kan tillämpas på många olika scenarier, bland annat följande:

  • Djupsökning: Använd de insikter som extraheras från videon för att förbättra sökupplevelsen i ett videobibliotek. Indexering av talade ord och ansikten kan till exempel göra det möjligt att söka efter ögonblick i en video där en person talade vissa ord eller när två personer sågs tillsammans. Sökning som baseras på sådana insikter från videor gäller för nyhetstjänster, utbildningscentraler, reklamföretag, ägare av underhållningsinnehåll, företagslobappar och i allmänhet för alla branscher som har ett videobibliotek som användare behöver söka mot.
  • Skapa innehåll: Skapa vagnar, markera rullar, innehåll på sociala medier eller nyhetsklipp baserat på insikterna som Video Analyzer för media extraherar från ditt innehåll. Nyckeldatorer, scenmarkörer och tidsstämplar för personer och etikettutseenden gör skapandeprocessen mycket smidigare och enklare och gör att du kan komma åt de delar av videon som du behöver för det innehåll som du skapar.
  • Hjälpmedel: Oavsett om du vill göra ditt innehåll tillgängligt för personer med funktionsnedsättningar eller om du vill att ditt innehåll ska distribueras till olika regioner med olika språk kan du använda transkriptionen och översättningen från Video Analyzer for Media på flera språk.
  • Intäktsgenerering: Video Analyzer for Media kan hjälpa till att öka värdet på videor. Till exempel kan branscher som förlitar sig på annonsintäkter (nyhetsmedier, sociala medier och så vidare) leverera relevanta annonser genom att använda extraherade insikter som ytterligare signaler till ad-servern.
  • Innehållsmoderering: Använd textbaserade och visuella innehållsmodereringsmodeller för att skydda användarna mot olämpligt innehåll och verifiera att det innehåll som du publicerar matchar organisationens värden. Du kan automatiskt blockera vissa videor eller varna användarna om innehållet.
  • Rekommendationer: Videoinsikter kan användas för att förbättra användarinteragemang genom att markera relevanta videoögonblicksblickar för användarna. Genom att tagga varje video med ytterligare metadata kan du rekommendera användarna de mest relevanta videorna och markera de delar av videon som passar deras behov.

Funktioner

I följande lista visas de insikter som du kan hämta från dina videor med videoanalysverktyg för video- och ljudmodeller för media:

Videoinsikter

  • Ansiktsigenkänning: Identifierar och grupperar ansikten som visas i videon.
  • Identifiering av kändisar: Video Analyzer for Media identifierar automatiskt över 1 miljon kändisar – till exempel världsledare, skådespelare, skådespelare, idrottare, forskare, affärsledare och teknikledare över hela världen. Data om dessa kändisar finns också på olika webbplatser (IMDB, Wikipedia och så vidare).
  • Kontobaserad ansiktsidentifiering: Video Analyzer for Media tränar en modell för ett specifikt konto. Den identifierar sedan ansikten i videon baserat på den tränade modellen. Mer information finns i Anpassa en personmodell från webbplatsen Video Analyzer for Media och Anpassa en personmodell med Video Analyzer för Media API.
  • Extrahering av miniatyrbilder för ansikten ("bästa ansikte"): Identifierar automatiskt det bäst avbildade ansiktet i varje grupp med ansikten (baserat på kvalitet, storlek och frontalposition) och extraherar det som en bildtillgång.
  • Visuell textigenkänning (OCR): Extraherar text som visas visuellt i videon.
  • Moderering av visuellt innehåll: Identifierar vuxna och/eller vågade visuella objekt.
  • Identifiering av etiketter: Identifierar visuella objekt och åtgärder som visas.
  • Scensegmentering: Avgör när en scen ändras i video baserat på visuella tips. En scen visar en enda händelse och den består av en serie efterföljande bilder, som är semantiskt relaterade.
  • Bildidentifiering: Avgör när en bild ändras i video baserat på visuella tips. En bild är en serie bildrutor som tas från samma kamera för rörelsebilder. Mer information finns i Scener, bilder och nyckelbilder.
  • Identifiering av svarta bildrutor: Identifierar svarta bildrutor som visas i videon.
  • Extrahering av bildrutor: Identifierar stabila nyckelbilder i en video.
  • Löpande krediter: Identifierar början och slutet av de löpande krediterna i slutet av TV-program och filmer.
  • Identifiering av animerade tecken (förhandsversion): Identifiering, gruppering och igenkänning av tecken i animerat innehåll via integrering Cognitive Services Custom Vision. Mer information finns i Identifiering av animerade tecken.
  • Identifiering av redigeringsbilder: Tagga bilder baserat på deras typ (t.ex. vidslag, medelhög bild, närbild, extrem närbild, två bilder, flera personer, utomhus och inomhus och så vidare). Mer information finns i Identifiering av typ av redigeringsbild.
  • Observerad personspårning (förhandsversion): identifierar observerade personer i videor och tillhandahåller information som personens plats i videoramen (med hjälp av avgränsade rutor) och den exakta tidsstämpeln (start, slut) och förtroende när en person visas. Mer information finns i Spåra observerade personer i en video.
    • Personers identifierade kläder: identifierar klädtyperna av personer som visas i videon och ger information som långa eller korta höljen, långa eller korta kläder och kläder. De identifierade kläder är associerade med de personer som bär den och den exakta tidsstämpeln (start, slut) tillsammans med en konfidensnivå för identifieringen tillhandahålls.

Ljudinsikter

  • Ljudtranskribering: Konverterar tal till text över 50 språk och tillåter tillägg. Språk som stöds är engelska USA, engelska Storbritannien, engelska Australien, spanska, spanska (Mexiko), franska, franska (Kanada), tyska, mandarin kinesiska, kinesiska (kantese, traditionell), kinesiska (förenklad), japanska, ryska, portugisiska, hindi, tjeckiska, nederländska, polska, danska, norska, finish, svenska, turkiska, turkiska, koreanska, arabiska(Ser), arabiska(Oman), arabiska (Israel), arabiska(et), arabiska (Under), arabiska(et), arabiska (Pomas), arabiska(et), arabiska (etiska) och arabiska (etiska) Arabiska(Dhaa), arabiska (Saudiarabien), arabiska (Förenade Arabemiraten), arabiska (utfärdare av arabiska(arabiska) och arabiska modern standard (Tecken) .
  • Automatisk språkidentifiering: Identifierar automatiskt dominant talat språk. Språk som stöds är engelska, spanska, franska, tyska, italienska, mandarin, japanska, ryska och portugisiska. Om språket inte kan identifieras med tillförsikt förutsätter Video Analyzer för media att det talade språket är engelska. Mer information finns i Modell för språkidentifiering.
  • Talidentifiering och transkription för flera språk: Identifierar automatiskt talat språk i olika ljudsegment. Tjänsten skickar varje segment av mediefilen som ska transkriberas, och sedan kombineras transkriptionerna till en enda transkription. Mer information finns i Identifiera och transkribera innehåll på olika språk automatiskt.
  • Textning: Skapar textning i tre format: VTT, TTML och SRT.
  • Bearbetning med två kanaler: Identifierar automatiskt separata avskrifter och sammanslår till en enda tidslinje.
  • Brusreducering: Rensar telefoniljud eller inspelningar med brus (baserat på Skype filter).
  • Avskriftsanpassning (CRIS): Tränar anpassade tal till text-modeller för att skapa branschspecifika avskrifter. Mer information finns i Anpassa en språkmodell från webbplatsen Video Analyzer for Media och Anpassa en språkmodell med VIDEO Analyzer för media-API:er.
  • Talaruppräkning: Kartor förstår vilken talare som talade vilka ord och när. 16 talare kan identifieras i en enda ljudfil.
  • Talarstatistik: Tillhandahåller statistik för talarens talförhållande.
  • Moderering av textinnehåll: Identifierar stötande text i ljudavskriften.
  • Ljudeffekter (förhandsversion): Identifierar följande ljudeffekter i innehållets icke-talsegment: Gunshot, Glass- och Larm, Siren, Explosion, DogRop, Lyssnad, Publik-reaktioner (rop, klappning och klappning) och Tystnad. Obs! Den fullständiga uppsättningen händelser är bara tillgänglig när du väljer "Avancerad ljudanalys" i förinställd uppladdning, annars är endast "Tystnad" och "Publik reaktion" tillgängligt.
  • Känsloidentifiering: Identifierar känslor baserat på tal (vad sägs) och rösttonalitet (hur det sägs). Känslorna kan vara glada, sorgsna, angere eller rädsla.
  • Översättning: Skapar översättningar av ljudavskriften till 54 olika språk.
  • Identifiering av ljudeffekter (förhandsversion): Identifierar olika akustikhändelser och klassificerar dem i olika akustiska kategorier (till exempel Gunshot, Visuella objekt, Crowd Reaction med mera). De identifierade akustiska händelserna finns i undertextfilen. Filen kan laddas ned från Video Analyzer for Media-portalen. Mer information finns i Identifiering av ljudeffekter.

Ljud- och videoinsikter (flera kanaler)

När du indexerar med en kanal blir partiella resultat för dessa modeller tillgängliga.

  • Extrahering av nyckelord: Extraherar nyckelord från tal och visuell text.
  • Extrahering av namngivna entiteter: Extraherar varumärken, platser och personer från tal och visuell text via bearbetning av naturligt språk (NLP).
  • Ämnesinferens: Skapar inferens av huvudämnen från avskrifter. IPTC-taxonomin på andra nivån ingår.
  • Artefakter: Extraherar en omfattande uppsättning ”nästa detaljnivå”-artefakter för de olika modellerna.
  • Attitydanalys: Identifierar positiva, negativa och neutrala attityder i tal och visuell text.

Hur kommer jag igång med Video Analyzer för media?

Du kan komma åt Funktionerna i Video Analyzer for Media på tre sätt:

  • Video Analyzer for Media-portalen: En lättanvänd lösning där du kan utvärdera produkten, hantera kontot och anpassa modeller.

    Mer information om portalen finns i Kom igång med webbplatsen Video Analyzer for Media.

  • API-integrering: Alla Video Analyzer for Media-funktioner är tillgängliga via en REST API, vilket gör att du kan integrera lösningen i dina appar och din infrastruktur.

    Information om hur du kommer igång som utvecklare finns i Använda Video Analyzer för Media REST API.

  • Inbäddningsbar widget: Gör att du kan bädda in videoanalys för medieinsikter, spelare och redigeringsupplevelser i din app.

    Mer information finns i Bädda in visuella widgetar i ditt program.

Om du använder webbplatsen läggs insikterna till som metadata och visas i portalen. Om du använder API:er är insikterna tillgängliga som en JSON-fil.

Webbläsare som stöds

I följande lista visas de webbläsare som stöds som du kan använda för webbplatsen Video Analyzer for Media och för dina appar som bäddar in widgetarna. Listan visar även den lägsta webbläsarversion som stöds:

  • Edge, version: 16
  • Firefox, version: 54
  • Chrome, version: 58
  • Safari, version: 11
  • Opera, version: 44
  • Opera Mobile, version: 59
  • Android Browser, version: 81
  • Samsung Browser, version: 7
  • Chrome för Android, version: 87
  • Firefox för Android, version: 83

Nästa steg

Nu är du redo att komma igång med Video Analyzer for Media. Mer information finns i följande artiklar: