Analysera video- och ljudfiler med Azure Media Services
Varning
Den 11 juni 2020 meddelade Microsoft att de inte kommer att sälja teknik för ansiktsigenkänning till polismyndigheter i USA förrän starka föreskrifter som rör användningen av dessa tekniker och som bygger på de mänskliga rättigheterna har införts. Därför kan kunder inte använda funktioner för ansiktsigenkänning som ingår i Azure Video Analyze, till exempel Ansiktsigenkänning eller Azure Video Analyzer för media (tidigare Video Indexer), om en kund är eller tillåter användning av sådana tjänster av eller för en polisavdelning på USA.
Letar du efter Media Services v2-dokumentation?
Azure Media Services v3 kan du extrahera insikter från video- och ljudfiler med Azure Video Analyzer for Media (tidigare Video Indexer). I den här artikeln beskrivs Media Services v3-analysverktygsförinställningar som används för att extrahera dessa insikter. Om du vill ha mer detaljerad information kan du använda Video Analyzer för media direkt. Information om när du ska använda Video Analyzer för media kontra Media Services förinställningar för analysverktyg finns i jämförelsedokumentet.
Det finns två lägen för förinställningen Audio Analyzer, Basic och Standard. Se beskrivningen av skillnaderna i tabellen nedan.
Om du vill analysera ditt innehåll med Media Services v3-förinställningar skapar du en transformering och skickar ett jobb som använder någon av dessa förinställningar: VideoAnalyzerPreset eller AudioAnalyzerPreset. En självstudiekurs som visar hur du använder VideoAnalyzerPreset finns i Analysera videor med Azure Media Services.
Efterlevnad, sekretess och säkerhet
Som en viktig påminnelse måste du följa alla tillämpliga lagar i din användning av Video Analyzer för media, och du får inte använda Video Analyzer för media eller någon annan Azure-tjänst på ett sätt som strider mot andras rättigheter eller kan vara skadligt för andra. Innan du laddar upp videor, inklusive biometriska data, till Video Analyzer for Media-tjänsten för bearbetning och lagring, måste du ha rätt rättigheter, inklusive alla lämpliga medgivanden, från personen i videon. Information om efterlevnad, sekretess och säkerhet i Video Analyzer for Media finns i Azure Cognitive Services villkor. Microsofts sekretesskrav och hantering av dina data finns i Microsofts sekretesspolicy, Villkor för Onlinetjänster ("OST") och tillägget för databehandling ("DPA"). Ytterligare sekretessinformation, inklusive om datalagring, borttagning/destruktion, finns i OST och här. Genom att använda Video Analyzer för media samtycker du till att vara bunden Cognitive Services villkor, OST, DPA och sekretesspolicyn.
Inbyggda förinställningar
Media Services stöder för närvarande följande inbyggda analysförinställningar:
| Förinställt namn | Scenario/läge | Information |
|---|---|---|
| AudioAnalyzerPreset | Analysera ljud, standardläge | Förinställningen tillämpar en fördefinierad uppsättning AI-baserade analysåtgärder, inklusive taltranskriskription. För närvarande stöder förinställningen bearbetning av innehåll med ett enda ljudspår som innehåller tal på ett enda språk. Du kan ange språket för ljudnyttolasten i indata med BCP-47-formatet "language tag-region". Språk som stöds är engelska ('en-US', 'en-GB' och 'en-AU'), spanska ('es-ES' och 'es-MX'), franska ('fr-FR' och 'fr-CA'), italienska ('it-IT'), japanska ('ja-JP'), portugisiska ('pt-BR'), kinesiska ('zh-CN'), tyska ('de-DE'), arabiska ('ar-JPG', "ar-EG", "ar-IQ", "ar-JO", "ar-HP", "ar-LB", "ar-OM", "ar-QA", "ar-SA" och "ar-SY"), ryska ('ru-RU'), hindi ('hi-IN) '), koreanska ('ko-KR'), danska('da-DK'), norska('nb-NO'), svenska('sv-SE'), finska ('fi-FI'), thailändska('th-TH') och turkiska( "tr-TR"). Om språket inte anges eller är inställt på null, väljer automatisk språkidentifiering det första språket som identifierats och fortsätter med det valda språket under filens varaktighet. Funktionen för automatisk språkidentifiering stöder för närvarande engelska, kinesiska, franska, tyska, italienska, japanska, spanska, ryska och portugisiska. Det stöder inte dynamisk växling mellan språk när det första språket har identifierats. Funktionen för automatisk språkidentifiering fungerar bäst med ljudinspelningar med tydligt läsbart tal. Om automatisk språkidentifiering inte kan hitta språket, faller transkriptionen tillbaka till engelska. |
| AudioAnalyzerPreset | Analysera grundläggande ljudläge | Det här förinställda läget utför tal-till-text-transkription och generering av en UNDERtextfil FÖRT-TILL-TEXT. Utdata från det här läget innehåller Insights JSON-fil som endast innehåller nyckelord, transkription och tidsinformation. Automatisk språkidentifiering och talardiarisering ingår inte i det här läget. Listan över språk som stöds är identisk med standardläget ovan. |
| VideoAnalyzerPreset | Analysera ljud och video | Extraherar insikter (omfattande metadata) från både ljud och video och matar ut en JSON-formatfil. Du kan ange om du bara vill extrahera ljudinsikter när du bearbetar en videofil. Mer information finns i Analysera video. |
| FaceDetectorPreset | Identifiera ansikten som finns i videon | Beskriver de inställningar som ska användas när du analyserar en video för att identifiera alla ansikten som finns. |
AudioAnalyzerFörbered standardläge
Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.
Utdata innehåller en JSON-fil (med alla insikter) och ENT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket i indatafilen i form av en BCP47-sträng. Ljudinsikterna omfattar:
- Ljudtranskriskription: En avskrift av talade ord med tidsstämplar. Flera språk stöds.
- Talarindexering: En mappning av talarna och motsvarande talade ord.
- Talsentimentanalys: Utdata från attitydanalys som utförs på ljudtranskriskriptionen.
- Nyckelord: Nyckelord som extraheras från ljudtranskriskriptionen.
AudioAnalyzerFörbered grundläggande läge
Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.
Utdata innehåller en JSON-fil och ENT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket i indatafilen i form av en BCP47-sträng. Utdata innehåller:
- Ljudtranskriskription: En avskrift av talade ord med tidsstämplar. Flera språk stöds, men automatisk språkidentifiering och talardiarisering ingår inte.
- Nyckelord: Nyckelord som extraheras från ljudtranskriskriptionen.
VideoAnalyzerPreset
Med förinställningen kan du extrahera flera ljud- och videoinsikter från en videofil. Utdata innehåller en JSON-fil (med alla insikter), en JPT-fil för videoavskriften och en samling miniatyrer. Den här förinställningen accepterar också en BCP47-sträng (som representerar språket i videon) som en egenskap. Videoinsikterna innehåller alla ljudinsikter som nämns ovan och följande ytterligare objekt:
- Ansiktsspårning: Den tid då ansikten finns i videon. Varje ansikte har ett ansikts-ID och en motsvarande samling miniatyrbilder.
- Visuell text: Den text som identifieras via optisk teckenläsning. Texten är tidsstämplad och används även för att extrahera nyckelord (förutom ljudavskriften).
- Nyckeldatorer: En samling nyckelbildrutor som extraherats från videon.
- Moderering av visuellt innehåll: Den del av videorna som flaggats som vuxet eller racy i naturen.
- Anteckning: Ett resultat av att kommentera videor baserat på en fördefinierad objektmodell
insights.json-element
Utdata innehåller en JSON-fil (insights.json) med alla insikter som finns i videon eller ljudet. JSON kan innehålla följande element:
Utskrift
| Name | Beskrivning |
|---|---|
| id | Rad-ID: t. |
| text | Själva avskriften. |
| language | Avskriftsspråket. Avsedd att stödja avskrift där varje rad kan ha olika språk. |
| Instanser | En lista över tidsintervall där den här raden visades. Om instansen är avskrift har den bara 1 instans. |
Exempel:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
| Name | Beskrivning |
|---|---|
| id | OCR-rad-ID. |
| text | OCR-texten. |
| konfidensbedömning | Igenkänningsförtroende. |
| language | Språket OCR. |
| Instanser | En lista över tidsintervall där ocr visas (samma OCR kan visas flera gånger). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Ansikten
| Name | Beskrivning |
|---|---|
| id | Ansikts-ID:t. |
| name | Ansiktsnamnet. Det kan vara "Okänd #0", en identifierad kändis eller en kundtränad person. |
| konfidensbedömning | Ansiktsidentifieringsförtroende. |
| beskrivning | En beskrivning av kändisen. |
| thumbnailId | ID för miniatyrbilden för det ansiktet. |
| knownPersonId | Det interna ID:t (om det är en känd person). |
| referenceId | Det Bing ID:t (om det är en Bing kändis). |
| referenceType | För närvarande är det bara Bing. |
| title | Titeln (om det är en kändis, till exempel "Microsofts VD"). |
| imageUrl | Bild-URL:en, om det är en kändis. |
| Instanser | Instanser där ansiktet visades inom det angivna tidsperioden. Varje instans har också ett thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Skott
| Name | Beskrivning |
|---|---|
| id | Bild-ID:t. |
| Nyckelrutor | En lista över nyckelbildrutor i bilden (var och en har ett ID och en lista över tidsintervall för instanser). Instanser av nyckelbildrutor har ett thumbnailId-fält med keyFrames miniatyr-ID. |
| Instanser | En lista över tidsintervall för den här bilden (bilder har bara 1 instans). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statistik
| Name | Beskrivning |
|---|---|
| CorrespondenceCount | Antal överensstämmelsen i videon. |
| WordCount | Antalet ord per talare. |
| SpeakerNumberOfFragments | Mängden fragment som talaren har i en video. |
| SpeakerLongestMonolog | Talarens längsta monolog. Om talaren har tystnad i monologen inkluderas den. Tystnad i början och slutet av monologen tas bort. |
| SpeakerTalkToListenRatio | Beräkningen baseras på den tid som ägnats åt talarens monolog (utan tystnad mittemellan) dividerat med videons totala tid. Tiden avrundas till det tredje decimaltecknet. |
Känslor
Sentiment aggregeras med fältet sentimentType (positiv/neutral/negativ). Till exempel 0-0.1, 0.1-0.2.
| Name | Beskrivning |
|---|---|
| id | Sentiment-ID: t. |
| averageScore | Medelvärdet av alla poäng för alla instanser av den sentimenttypen – positiv/neutral/negativ |
| Instanser | En lista över tidsintervall där den här attityden visades. |
| sentimentType | Typen kan vara "positiv", "neutral" eller "negativ". |
"sentiments": [
{
"id": 0,
"averageScore": 0.87,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:23",
"end": "00:00:41"
}
]
}, {
"id": 1,
"averageScore": 0.11,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:13",
"end": "00:00:21"
}
]
}
]
Etiketter
| Name | Beskrivning |
|---|---|
| id | Etikett-ID: t. |
| name | Etikettnamnet (till exempel "Dator", "TV"). |
| language | Etikettnamnets språk (när det översätts). BCP-47 |
| Instanser | En lista över tidsintervall där etiketten visades (en etikett kan visas flera gånger). Varje instans har ett konfidensfält. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
nyckelord
| Name | Beskrivning |
|---|---|
| id | Nyckelords-ID: t. |
| text | Nyckelordstexten. |
| konfidensbedömning | Nyckelordets konfidens för igenkänning. |
| language | Nyckelordsspråket (när det översätts). |
| Instanser | En lista över tidsintervall där det här nyckelordet visas (ett nyckelord kan visas flera gånger). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
VisualContentModeration-blocket innehåller tidsintervall som Video Analyzer for Media har visat sig potentiellt ha vuxet innehåll. Om visualContentModeration är tomt finns det inget vuxet innehåll som har identifierats.
Videor som visar sig innehålla vuxet eller ojämnt innehåll kan vara tillgängliga endast för privat vy. Användare kan skicka en begäran om mänsklig granskning av innehållet, vilket innebär IsAdult att attributet innehåller resultatet av den mänskliga granskningen.
| Name | Beskrivning |
|---|---|
| id | Det visuella innehållsmodererings-ID:t. |
| adultScore | Poängen för vuxna (från Content Moderator). |
| racyScore | Poängen (från innehållsmoderering). |
| Instanser | En lista över tidsintervall där innehållsmodereringen för det visuella objektet visades. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]