Video- en audiobestanden analyseren met Azure Media Services
Waarschuwing
Op 11 juni 2020 kondigde Microsoft aan dat het geen gezichtsherkenningssoftware verkoopt aan politieafdelingen in de Verenigde Staten totdat er solide wetgeving op basis van mensenrechten in werking is getreden. Als zodanig kunnen klanten geen gezichtsherkenningsfuncties of -functionaliteit gebruiken die zijn opgenomen in Azure Video Analyze, zoals Face of Azure Video Analyzer for Media (voorheen Video Indexer), als een klant het gebruik van dergelijke services door of voor een politieafdeling in de Verenigde Staten.
Zoekt u Media Services v2-documentatie?
Azure Media Services v3 kunt u inzichten extraheren uit uw video- en audiobestanden met Azure Video Analyzer for Media (voorheen Video Indexer). In dit artikel worden de Media Services v3 Analyzer-voorinstellingen beschreven die worden gebruikt om deze inzichten te extraheren. Als u meer gedetailleerde inzichten wilt, gebruikt u Video Analyzer voor media rechtstreeks. Bekijk het vergelijkingsdocument om te begrijpen wanneer u Video Analyzer voor Media gebruikt Media Services de standaardinstellingen van de analyzer.
Er zijn twee modi voor de audioanalyse vooraf ingesteld, basic en standard. Bekijk de beschrijving van de verschillen in de onderstaande tabel.
Als u uw inhoud wilt analyseren met behulp van Media Services v3-voorinstellingen, maakt u een transformatie en verstuurt u een taak die gebruikmaakt van een van de volgende voorinstellingen: VideoAnalyzerPreset of AudioAnalyzerPreset. Zie Video's analyseren met Azure Media Services voor een zelfstudie over het gebruik van VideoAnalyzerPreset.
Compliance, privacy en beveiliging
Als belangrijke herinnering moet u voldoen aan alle toepasselijke wetten in uw gebruik van Video Analyzer for Media en mag u Video Analyzer voor Media of een andere Azure-service niet gebruiken op een manier die de rechten van anderen schendt of die mogelijk schadelijk is voor anderen. Voordat u video's, inclusief biometrische gegevens, uploadt naar de Video Analyzer for Media-service voor verwerking en opslag, moet u alle juiste rechten hebben, inclusief alle juiste toestemmingen van de persoon(en) in de video. Voor meer informatie over naleving, privacy en beveiliging in Video Analyzer for Media, de Azure Cognitive Services Terms. Als u meer wilt weten over de privacyverplichtingen die Microsoft hanteert ten aanzien van uw gegevens, kunt u de Privacyverklaring van Microsoft, de Voorwaarden voor Online Diensten ('OST') en het Addendum met betrekking tot gegevensverwerking ('DPA') raadplegen. Aanvullende informatie over privacy, waaronder informatie over de bewaarplicht voor gegevens en over de verwijdering/vernietiging ervan, is beschikbaar in de Voorwaarden voor Online Diensten (OST) en hier. Door Video Analyzer voor Media te gebruiken, gaat u ermee akkoord dat u bent gebonden aan de Cognitive Services voorwaarden, de OST, DPA en de privacyverklaring.
Ingebouwde voorinstellingen
Media Services ondersteunt momenteel de volgende ingebouwde standaardinstellingen voor analyzer:
| Vooraf ingestelde naam | Scenario/modus | Details |
|---|---|---|
| AudioAnalyzerPreset | De standaardmodus voor audio analyseren | Met de voorinstelling wordt een vooraf gedefinieerde set analysebewerkingen op basis van AI toegepast, waaronder spraaktranscriptie. Op dit moment ondersteunt de voorinstelling de verwerking van inhoud met één audiospoor dat spraak in één taal bevat. U kunt de taal voor de audio-nettolading in de invoer opgeven met behulp van de BCP-47-indeling 'language tag-region'. Ondersteunde talen zijn Engels ('en-US', 'en-GB' en 'en-AU'), Spaans ('es-ES' en 'es-MX'), Frans ('fr-FR' en 'fr-CA'), Italiaans ('it-IT'), Japans ('ja-JP'), Portugees ('pt-BR'), Chinees ('zh-CN'), Duits ('de-DE'), Arabisch ('ar-TIJDENS', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' en 'ar-SY'), Russisch ('ru-RU'), Hindi ('hi-IN'), Koreaans ('ko-KR'), Deens('da-DK'), Noors('nb-NO'), Zweeds('sv-SE'), Fins ('fi-FI'), Thai('th-TH') en Turks( 'tr-TR'). Als de taal niet is opgegeven of is ingesteld op null, kiest automatische taaldetectie de eerste taal die wordt gedetecteerd en gaat verder met de geselecteerde taal voor de duur van het bestand. De functie voor automatische taaldetectie ondersteunt momenteel Engels, Chinees, Frans, Duits, Italiaans, Japans, Spaans, Russisch en Portugees. Het biedt geen ondersteuning voor dynamisch schakelen tussen talen nadat de eerste taal is gedetecteerd. De functie voor automatische taaldetectie werkt het beste met audio-opnamen met duidelijk te onderscheiden spraak. Als automatische taaldetectie de taal niet kan vinden, wordt de transcriptie teruggeschreven naar het Engels. |
| AudioAnalyzerPreset | De basismodus voor audio analyseren | In deze vooraf ingestelde modus wordt spraak-naar-tekst-transcriptie uitgevoerd en wordt een VTT-ondertitelings-/bijschriftbestand gemaakt. De uitvoer van deze modus bevat een Insights JSON-bestand met alleen de trefwoorden, transcriptie en timing-informatie. Automatische taaldetectie en sprekerdirisatie zijn niet opgenomen in deze modus. De lijst met ondersteunde talen is identiek aan de standaardmodus hierboven. |
| VideoAnalyzerPreset | Audio en video analyseren | Extraheert inzichten (uitgebreide metagegevens) uit zowel audio als video en geeft een JSON-indelingsbestand weer. U kunt opgeven of u alleen audio-inzichten wilt extraheren bij het verwerken van een videobestand. Zie Video analyseren voor meer informatie. |
| FaceDetectorPreset | Gezichten detecteren die aanwezig zijn in video | Beschrijft de instellingen die moeten worden gebruikt bij het analyseren van een video om alle aanwezige gezichten te detecteren. |
Standaardmodus AudioAnalyzerPreset
Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.
De uitvoer bevat een JSON-bestand (met alle inzichten) en een VTT-bestand voor de audiotranscriptie. Deze voorinstelling accepteert een eigenschap die de taal van het invoerbestand in de vorm van een BCP47-tekenreeks specificeert. De audio-inzichten omvatten:
- Audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund.
- Sprekerindexering: Een toewijzing van de sprekers en de bijbehorende gesproken woorden.
- Spraaksentimentanalyse: de uitvoer van sentimentanalyse die wordt uitgevoerd op de audiotranscriptie.
- Trefwoorden: trefwoorden die worden geëxtraheerd uit de audiotranscriptie.
Basismodus AudioAnalyzerPreset
Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.
De uitvoer bevat een JSON-bestand en een VTT-bestand voor de audiotranscriptie. Deze voorinstelling accepteert een eigenschap die de taal van het invoerbestand in de vorm van een BCP47-tekenreeks specificeert. De uitvoer omvat:
- Audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund, maar automatische taaldetectie en sprekerdirisatie zijn niet inbegrepen.
- Trefwoorden: trefwoorden die worden geëxtraheerd uit de audiotranscriptie.
VideoAnalyzerPreset
Met de voorinstelling kunt u meerdere audio- en video-inzichten extraheren uit een videobestand. De uitvoer bevat een JSON-bestand (met alle inzichten), een VTT-bestand voor het transcript van de video en een verzameling miniaturen. Deze voorinstelling accepteert ook een BCP47-tekenreeks (die de taal van de video vertegenwoordigt) als een eigenschap. De video-inzichten bevatten alle hierboven genoemde audio-inzichten en de volgende aanvullende items:
- Gezichtstracking: de tijd waarin gezichten aanwezig zijn in de video. Elk gezicht heeft een gezichts-id en een bijbehorende verzameling miniaturen.
- Visuele tekst: de tekst die wordt gedetecteerd via optische tekenherkenning. De tekst wordt voorzien van een tijdstempel en wordt ook gebruikt om trefwoorden te extraheren (naast het audiotranscript).
- Keyframes: een verzameling sleutelframes die uit de video zijn geëxtraheerd.
- Toezicht op visuele inhoud: het gedeelte van de video's dat wordt gemarkeerd als volwassen of racy van aard.
- Aantekening: een resultaat van het aantekeningen van de video's op basis van een vooraf gedefinieerd objectmodel
insights.json-elementen
De uitvoer bevat een JSON-bestand (insights.json) met alle inzichten in de video of audio. De JSON kan de volgende elementen bevatten:
Afschrift
| Naam | Beschrijving |
|---|---|
| id | De regel-id. |
| tekst | De transcriptie zelf. |
| language | De transcripttaal. Bedoeld ter ondersteuning van transcriptie waarbij elke regel een andere taal kan hebben. |
| Exemplaren | Een lijst met tijdsbereiken waarin deze regel wordt weergegeven. Als het exemplaar transcriptie is, heeft deze slechts één exemplaar. |
Voorbeeld:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
| Naam | Beschrijving |
|---|---|
| id | De regel-id van OCR. |
| tekst | De OCR-tekst. |
| betrouwbaarheid | De betrouwbaarheid van de herkenning. |
| language | De OCR-taal. |
| Exemplaren | Een lijst met tijdsbereiken waarin deze OCR wordt weergegeven (dezelfde OCR kan meerdere keren worden weergegeven). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Gezichten
| Naam | Beschrijving |
|---|---|
| id | De gezichts-id. |
| naam | De gezichtsnaam. Dit kan 'Onbekende #0', een geïdentificeerde beroemdheid of een door de klant getrainde persoon zijn. |
| betrouwbaarheid | De betrouwbaarheid van gezichtsidentificatie. |
| beschrijving | Een beschrijving van de beroemdheid. |
| thumbnailId | De id van de miniatuur van dat gezicht. |
| knownPersonId | De interne id (als het een bekende persoon is). |
| referenceId | De Bing-id (als het een Bing is). |
| referenceType | Momenteel is Bing. |
| titel | De titel (als het een beroemdheid is, bijvoorbeeld 'Ceo van Microsoft'). |
| imageUrl | De afbeeldings-URL, als deze een beroemdheid is. |
| Exemplaren | Exemplaren waar het gezicht in het opgegeven tijdsbereik wordt weer gegeven. Elk exemplaar heeft ook een thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Shots
| Naam | Beschrijving |
|---|---|
| id | De schermafbeeldings-id. |
| Hoofdframes | Een lijst met sleutelframes in de opname (elk heeft een id en een lijst met tijdsbereiken voor exemplaren). Sleutelframes hebben een thumbnailId-veld met de miniatuur-id van het keyFrame. |
| Exemplaren | Een lijst met tijdsbereiken van deze opname (opnamen hebben slechts één exemplaar). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistieken
| Naam | Beschrijving |
|---|---|
| CorrespondenceCount | Het aantalcorrespondenten in de video. |
| WordCount | Het aantal woorden per spreker. |
| SpeakerNumberOfFragments | De hoeveelheid fragmenten die de spreker in een video heeft. |
| SpeakerLongestMonolog | De langste monolog van de spreker. Als de spreker stiltes in de monologe heeft, wordt deze opgenomen. Stilte aan het begin en het einde van de monologo wordt verwijderd. |
| SpeakerTalkToListenRatio | De berekening is gebaseerd op de tijd die is besteed aan de monologie van de spreker (zonder de stilte ertussen) gedeeld door de totale tijd van de video. De tijd wordt afgerond op het derde decimaalteken. |
Gevoelens
Sentimenten worden geaggregeerd door het veld sentimentType (positief/neutraal/negatief). Bijvoorbeeld 0-0.1, 0.1-0.2.
| Naam | Beschrijving |
|---|---|
| id | De gevoels-id. |
| averageScore | Het gemiddelde van alle scores van alle exemplaren van dat gevoelstype - positief/neutraal/negatief |
| Exemplaren | Een lijst met tijdsbereiken waarin dit gevoel wordt weergegeven. |
| sentimentType | Het type kan 'Positief', 'Neutraal' of 'Negatief' zijn. |
"sentiments": [
{
"id": 0,
"averageScore": 0.87,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:23",
"end": "00:00:41"
}
]
}, {
"id": 1,
"averageScore": 0.11,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:13",
"end": "00:00:21"
}
]
}
]
labels
| Naam | Beschrijving |
|---|---|
| id | De label-id. |
| naam | De labelnaam (bijvoorbeeld 'Computer', 'TV'). |
| language | De taal van de labelnaam (indien vertaald). BCP-47 |
| Exemplaren | Een lijst met tijdsbereiken waarin dit label wordt weergegeven (een label kan meerdere keren worden weergegeven). Elk exemplaar heeft een vertrouwensveld. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
trefwoorden
| Naam | Beschrijving |
|---|---|
| id | De trefwoord-id. |
| tekst | De trefwoordtekst. |
| betrouwbaarheid | Het herkenningsvertrouwen van het trefwoord. |
| language | De trefwoordtaal (indien vertaald). |
| Exemplaren | Een lijst met tijdsbereiken waarin dit trefwoord wordt weergegeven (een trefwoord kan meerdere keren worden weergegeven). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Het blok visualContentModeration bevat tijdsbereiken die Video Analyzer voor Media mogelijk inhoud voor volwassenen bevat. Als visualContentModeration leeg is, is er geen inhoud voor volwassenen geïdentificeerd.
Video's die inhoud voor volwassenen of racy bevatten, zijn mogelijk alleen beschikbaar voor persoonlijke weergave. Gebruikers kunnen een aanvraag indienen voor een menselijke beoordeling van de inhoud. In dat geval bevat het kenmerk IsAdult het resultaat van de menselijke beoordeling.
| Naam | Beschrijving |
|---|---|
| id | De id voor het modereren van visuele inhoud. |
| adultScore | De score voor volwassenen (van content moderator). |
| racyScore | De racy score (van inhoudsbeheer). |
| Exemplaren | Een lijst met tijdsbereiken waarin dit visuele inhoudsbeheer werd weergegeven. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]