Analysera video- och ljudfiler med Azure Media Services
Varning
Azure Media Services dras tillbaka den 30 juni 2024. Mer information finns i AMS Pensionsguide.
Viktigt
Som Microsofts ansvarsfulla AI-standarder beskriver är Microsoft engagerat i rättvisa, sekretess, säkerhet och transparens när det gäller AI-system. För att följa dessa standarder drar Azure Media Services tillbaka förinställningen Video Analyzer den 14 september 2023. Med den här förinställningen kan du extrahera flera video- och ljudinsikter från en videofil. Kunder kan ersätta sina aktuella arbetsflöden med hjälp av den mer avancerade funktionsuppsättningen som erbjuds av Azure Video Indexer.
Med Media Services kan du extrahera insikter från dina video- och ljudfiler med hjälp av förinställningarna för ljud- och videoanalys. I den här artikeln beskrivs de förinställningar för analysverktyg som används för att extrahera insikter. Om du vill ha mer detaljerade insikter från dina videor använder du Azure Video Indexer-tjänsten. Om du vill förstå när du ska använda Förinställningar för Video Indexer jämfört med Media Services-analysverktyg kan du läsa jämförelsedokumentet.
Det finns två lägen för förinställningen Audio Analyzer, basic och standard. Se beskrivningen av skillnaderna i tabellen nedan.
Om du vill analysera ditt innehåll med Media Services v3-förinställningar skapar du en transformering och skickar ett jobb som använder någon av dessa förinställningar: VideoAnalyzerPreset eller AudioAnalyzerPreset.
Anteckning
AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.
Efterlevnad, sekretess och säkerhet
Du måste följa alla tillämpliga lagar i din användning av Video Indexer, och du får inte använda Video Indexer eller någon annan Azure-tjänst på ett sätt som kränker andras rättigheter eller kan vara skadligt för andra. Innan du laddar upp några videor, inklusive biometriska data, till Video Indexer-tjänsten för bearbetning och lagring måste du ha alla rätt rättigheter, inklusive alla lämpliga medgivanden, från individerna i videon. Om du vill veta mer om efterlevnad, sekretess och säkerhet i Video Indexer, villkoren för Azure Cognitive Services. Information om Microsofts sekretessskyldigheter och hantering av dina data finns i Microsofts sekretesspolicy, villkoren för onlinetjänster ("OST") och tillägget för databearbetning ("DPA"). Mer sekretessinformation, inklusive om datakvarhållning, borttagning/destruktion, finns i OST. Genom att använda Video Indexer samtycker du till att vara bunden av Cognitive Services-villkoren, OST, DPA och sekretesspolicyn.
Inbyggda förinställningar
Media Services stöder för närvarande följande inbyggda analysförinställningar:
Förinställt namn | Scenario/läge | Information |
---|---|---|
AudioAnalyzerPreset | Analysera ljudstandardläge | Förinställningen tillämpar en fördefinierad uppsättning AI-baserade analysåtgärder, inklusive talranskription. För närvarande stöder förinställningen bearbetning av innehåll med ett enda ljudspår som innehåller tal på ett enda språk. Ange språket för ljudnyttolasten i indata med BCP-47-formatet för "language tag-region". Se listan med språk som stöds nedan för tillgängliga språkkoder. Den automatiska språkidentifieringen väljer det första språk som identifieras och fortsätter med det valda språket för hela filen om det inte har angetts eller angetts till null. Funktionen för automatisk språkidentifiering stöder för närvarande: engelska, kinesiska, franska, tyska, italienska, japanska, spanska, ryska och brasilianska portugisiska. Det stöder inte dynamisk växling mellan språk när det första språket har identifierats. Funktionen för automatisk språkidentifiering fungerar bäst med ljudinspelningar med tydligt urskiljbart tal. Om automatisk språkidentifiering inte kan hitta språket återgår transkriptionen till engelska. |
AudioAnalyzerPreset | Analysera grundläggande ljudläge | Det här förinställda läget utför tal-till-text-transkription och generering av en VTT-undertext/bildtext fil. Utdata från det här läget innehåller en Insights JSON-fil som endast innehåller nyckelord, transkription och tidsinformation. Automatisk språkidentifiering och talardiarisering ingår inte i det här läget. Listan över språk som stöds är identisk med standardläget ovan. |
VideoAnalyzerPreset | Analysera ljud och video | Extraherar insikter (omfattande metadata) från både ljud och video och matar ut en JSON-formatfil. Du kan ange om du bara vill extrahera ljudinsikter när du bearbetar en videofil. |
FaceDetectorPreset | Identifiera ansikten som finns i videon | Beskriver de inställningar som ska användas när du analyserar en video för att identifiera alla ansikten som finns. |
Anteckning
AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.
Språk som stöds
- Arabiska ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" och "ar-SY")
- Portugisiska (pt-BR)
- Kinesiska ('zh-CN')
- Danska('da-DK')
- Engelska ("en-US", "en-GB" och "en-AU")
- Finska (fi-FI)
- Franska (fr-FR och fr-CA)
- Tyska ("de-DE")
- Hebreiska (hebreiska(he-IL)
- Hindi (hi-IN), koreanska ("ko-KR")
- Italienska ('it-IT')
- Japanska ("ja-JP")
- Norska ('nb-NO')
- Persiska ('fa-IR')
- Portugal portugisiska ("pt-PT")
- Ryska ("ru-RU")
- Spanska ("es-ES" och "es-MX")
- Svenska (sv-SE)
- Thailändska ('th-TH')
- Turkiska ('tr-TR')
Anteckning
AudioAnalyzerPreset stöds inte om lagringskontot inte har åtkomst till det offentliga nätverket.
AudioAnalyzerPreset standardläge
Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.
Utdata innehåller en JSON-fil (med alla insikter) och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Ljudinsikterna omfattar:
- Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds.
- Nyckelord: Nyckelord som extraheras från ljudavskriften.
AudioAnalyzerPreset – grundläggande läge
Med förinställningen kan du extrahera flera ljudinsikter från en ljud- eller videofil.
Utdata innehåller en JSON-fil och en VTT-fil för ljudavskriften. Den här förinställningen accepterar en egenskap som anger språket för indatafilen i form av en BCP47-sträng . Utdata omfattar:
- Ljudavskrift: En transkription av de talade orden med tidsstämplar. Flera språk stöds, men automatisk språkidentifiering och talardiarisering ingår inte.
- Nyckelord: Nyckelord som extraheras från ljudavskriften.
VideoAnalyzerPreset
Med förinställningen kan du extrahera flera ljud- och videoinsikter från en videofil. Utdata innehåller en JSON-fil (med alla insikter), en VTT-fil för videoavskriften och en samling miniatyrbilder. Den här förinställningen accepterar också en BCP47-sträng (som representerar videons språk) som en egenskap. Videoinsikterna innehåller alla ljudinsikter som nämns ovan och följande extra objekt:
- Ansiktsspårning: Tiden då ansikten finns i videon. Varje ansikte har ett ansikts-ID och en motsvarande samling miniatyrbilder.
- Visuell text: Den text som identifieras via optisk teckenläsning. Texten är tidsstämplad och används även för att extrahera nyckelord (utöver ljudavskriften).
- Nyckelrutor: En samling nyckelramar som extraherats från videon.
- Moderering av visuellt innehåll: Den del av videorna som flaggats som vuxna eller olämpliga till sin natur.
- Kommentar: Ett resultat av att kommentera videorna baserat på en fördefinierad objektmodell
insights.json element
Utdata innehåller en JSON-fil (insights.json) med alla insikter som finns i videon eller ljudet. JSON kan innehålla följande element:
Utskrift
Name | Beskrivning |
---|---|
id | Rad-ID: t. |
text | Själva avskriften. |
language | Avskriftsspråket. Avsedd att stödja avskrift där varje rad kan ha olika språk. |
Instanser | En lista över tidsintervall där den här raden visades. Om instansen är avskrift har den bara en instans. |
Exempel:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Name | Beskrivning |
---|---|
id | OCR-rad-ID: t. |
text | OCR-texten. |
konfidensbedömning | Erkännandets förtroende. |
language | OCR-språket. |
Instanser | En lista över tidsintervall där denna OCR visades (samma OCR kan visas flera gånger). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Ansikten
Name | Beskrivning |
---|---|
id | Ansikts-ID: t. |
name | Ansiktsnamnet. Det kan vara "Unknown #0", en identifierad kändis eller en kundutbildad person. |
konfidensbedömning | Ansiktsigenkänningens konfidens. |
beskrivning | En beskrivning av kändisen. |
thumbnailId | ID:t för miniatyrbilden av det ansiktet. |
knownPersonId | Det interna ID:t (om det är en känd person). |
referenceId | Bing-ID :t (om det är en Bing-kändis). |
referenceType | För närvarande är det bara Bing. |
title | Rubriken (om det är en kändis, till exempel "Microsofts VD"). |
imageUrl | Bild-URL:en, om det är en kändis. |
Instanser | Instanser där ansiktet uppträdde inom det angivna tidsintervallet. Varje instans har också ett thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Skott
Name | Beskrivning |
---|---|
id | Skott-ID:t. |
Nyckelrutor | En lista över nyckelramar i bilden (var och en har ett ID och en lista över instansernas tidsintervall). Nyckelbildruteinstanser har ett thumbnailId-fält med keyFrames miniatyr-ID. |
Instanser | En lista över tidsintervall för det här skottet (skott har bara en instans). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statistik
Name | Beskrivning |
---|---|
CorrespondenceCount | Antal korrespondenser i videon. |
WordCount | Antal ord per talare. |
SpeakerNumberOfFragments | Mängden fragment som talaren har i en video. |
SpeakerLongestMonolog | Talarens längsta monolog. Om talaren har tystnader inuti monologen ingår den. Tystnad i början och slutet av monologen tas bort. |
SpeakerTalkToListenRatio | Beräkningen baseras på den tid som ägnas åt talarens monolog (utan tystnaden däremellan) dividerat med videons totala tid. Tiden avrundas till den tredje decimalpunkten. |
Etiketter
Name | Beskrivning |
---|---|
id | Etikett-ID. |
name | Etikettnamnet (till exempel "Dator", "TV"). |
language | Etikettnamnspråket (när det översätts). BCP-47 |
Instanser | En lista över tidsintervall där den här etiketten visades (en etikett kan visas flera gånger). Varje instans har ett konfidensfält. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
nyckelord
Name | Beskrivning |
---|---|
id | Nyckelords-ID:t. |
text | Nyckelordstexten. |
konfidensbedömning | Nyckelordets igenkänningsförtroende. |
language | Nyckelordsspråket (när det översätts). |
Instanser | En lista över tidsintervall där det här nyckelordet visades (ett nyckelord kan visas flera gånger). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
VisualContentModeration-blocket innehåller tidsintervall som Video Indexer upptäckte potentiellt har vuxet innehåll. Om visualContentModeration är tomt finns det inget vuxet innehåll som har identifierats.
Videor som visar sig innehålla olämpligt innehåll eller olämpligt innehåll kan endast vara tillgängliga för privat visning. Användare kan skicka en begäran om en mänsklig granskning av innehållet, i vilket fall IsAdult
attributet kommer att innehålla resultatet av den mänskliga granskningen.
Name | Beskrivning |
---|---|
id | Det visuella innehållsmodererings-ID:t. |
adultScore | Vuxenpoängen (från content moderator). |
racyScore | Den vågade poängen (från innehållsmoderering). |
Instanser | En lista över tidsintervall där den här visuella innehållsmodereringen visades. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Få hjälp och support
Du kan kontakta Media Services med frågor eller följa våra uppdateringar med någon av följande metoder:
- Q & A
- Stack Overflow. Tagga frågor med
azure-media-services
. - @MSFTAzureMedia eller använd @AzureSupport för att begära support.
- Öppna en supportbegäran via Azure Portal.