Videó- és hangfájlok elemzése az Azure Media Services használatával
Figyelmeztetés
Az Azure Media Services 2024. június 30-án megszűnik. További információkért lásd az AMS kivezetési útmutatóját.
Fontos
Ahogy a Microsoft felelős AI-szabványai is felvázolják, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében az Azure Media Services 2023. szeptember 14-én nyugdíjba vonul a Video Analyzer előzetes beállításkészletétől. Ez az előzetes beállítás jelenleg lehetővé teszi, hogy több video- és hangelemzést nyerjen ki egy videófájlból. Az ügyfelek lecserélhetik aktuális munkafolyamataikat az Azure Video Indexer által kínált fejlettebb funkciókészlettel.
A Media Services segítségével elemzéseket nyerhet ki a videó- és hangfájlokból a hang- és videoelemző beállításainak használatával. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb elemzéseket szeretne a videóiból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemző előzetes beállításainak használatáról az összehasonlító dokumentumból tájékozódhat.
A Hangelemző előre beállított, alapszintű és standard üzemmódja két módból áll. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.
Ha a Media Services v3 előzetes beállításaival szeretné elemezni a tartalmat, hozzon létre egy átalakítást , és küldjön be egy feladatot , amely a következő beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.
Megjegyzés
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
Megfelelőség, adatvédelem és biztonság
Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó jogszabályt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozásra és tárolásra, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve a megfelelő hozzájárulásokat is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services használati feltételeiből tájékozódhat. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és az adatfeldolgozási kiegészítést ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzéssel, törléssel/törléssel kapcsolatban. A Video Indexer használatával Ön elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek tekinti.
Beépített előzetes beállítások
A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:
Előre beállított név | Forgatókönyv/mód | Részletek |
---|---|---|
AudioAnalyzerPreset | A standard hangmód elemzése | Az előre beállított beállítás AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg támogatja a tartalom feldolgozását egyetlen hangsávon, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a hangtartalom nyelvét a bemenetben a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokért tekintse meg az alábbi támogatott nyelvek listáját. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatódik, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazíliai portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció egyértelműen felismerhető beszédet tartalmazó hangfelvételekkel működik a legjobban. Ha az automatikus nyelvfelismerés nem találja a nyelvet, az átírás angolra esik vissza. |
AudioAnalyzerPreset | A hang alapszintű módjának elemzése | Ez az előre beállított mód beszéd-szöveg átírást és VTT-alcím/képaláírás fájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Az automatikus nyelvfelismerés és a hangszóró-diarizáció nem része ennek a módnak. A támogatott nyelvek listája megegyezik a fenti Standard móddal. |
VideoAnalyzerPreset | Hang és videó elemzése | Kinyeri az elemzéseket (gazdag metaadatokat) a hangból és a videóból, és egy JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni. |
FaceDetectorPreset | A videóban szereplő arcok észlelése | A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti. |
Megjegyzés
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
Támogatott nyelvek
- Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
- Brazíliai portugál (pt-BR)
- Kínai ('zh-CN')
- Dán(da-DK)
- Angol ('en-US', 'en-GB' és 'en-AU')
- Finn (fi-FI)
- Francia (fr-FR és fr-CA)
- Német ('de-DE')
- Héber (he-IL)
- Hindi ('hi-IN'), koreai ('ko-KR')
- Olasz (it-IT)
- Japán ('ja-JP')
- Norvég ('nb-NO')
- Perzsa (fa-IR)
- Portugál portugál (pt-PT)
- Orosz (ru-RU)
- Spanyol (es-ES és es-MX)
- Svéd (sv-SE)
- Thai (th-TH)
- Török ('tr-TR')
Megjegyzés
Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.
AudioAnalyzerPreset standard mód
A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.
A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és egy VTT-fájlt a hanganyag átiratához. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:
- Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott.
- Kulcsszavak: A hangátírásból kinyert kulcsszavak.
AudioAnalyzerElőzetes alapszintű mód
A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.
A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:
- Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel a csomagban.
- Kulcsszavak: A hangátírásból kinyert kulcsszavak.
VideoAnalyzerPreset
A beállításkészlettel több hang- és videoelemzést nyerhet ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint egy miniatűrgyűjteményt. Ez az előzetes beállítás egy BCP47-sztringet is elfogad (amely a videó nyelvét jelöli) tulajdonságként. A videoelemzések tartalmazzák a fent említett összes hangelemzést, valamint a következő további elemeket:
- Arckövetés: Az az idő, amely alatt az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
- Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveget időbélyeggel bélyegzik, és kulcsszavak kinyerésére is használják (a hangátiraton kívül).
- Kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
- Vizuális tartalommoderálás: A videók felnőttként vagy racy-ként megjelölt része.
- Széljegyzet: A videók egy előre definiált objektummodell alapján történő jegyzetelésének eredménye
insights.json elemek
A kimenet tartalmaz egy JSON-fájlt (insights.json), amely a videóban vagy a hangban található összes megállapítást tartalmazza. A JSON a következő elemeket tartalmazhatja:
Átirat
Név | Leírás |
---|---|
id | A sor azonosítója. |
szöveg | Maga az átirat. |
language | Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok nyelve eltérő lehet. |
Példányok | Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz. |
Példa:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Név | Leírás |
---|---|
id | Az OCR-sor azonosítója. |
szöveg | Az OCR szövege. |
megbízhatóság | Az elismerés megbízhatósága. |
language | Az OCR nyelve. |
Példányok | Azoknak az időtartományoknak a listája, ahol ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Arcok
Név | Leírás |
---|---|
id | Az arcazonosító. |
name | Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy egy ügyfél által betanított személy. |
megbízhatóság | Az arcazonosítás megbízhatósága. |
leírás | A híresség leírása. |
thumbnailId | Az arc miniatűrjének azonosítója. |
knownPersonId | A belső azonosító (ha ismert személy). |
referenceId | A Bing-azonosító (ha ez egy Bing híresség). |
referenceType | Jelenleg csak Bing. |
cím | A cím (ha hírességről van szó– például "A Microsoft vezérigazgatója"). |
imageUrl | A kép URL-címe, ha híresség. |
Példányok | Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Lövések
Név | Leírás |
---|---|
id | A lövés azonosítója. |
Kulcsképek | A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel, amely tartalmazza a keyFrame miniatűr-azonosítóját. |
Példányok | A felvétel időtartományainak listája (a felvételeknek csak egy példánya van). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statisztikák
Név | Leírás |
---|---|
Levelezési fiók | A videóban szereplő levelezések száma. |
WordCount | A szavak száma beszélőnként. |
SpeakerNumberOfFragments | A beszélő által a videóban található töredékek mennyisége. |
SpeakerLongestMonolog | A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, az is benne van. A monolog elején és végén lévő csend el lesz távolítva. |
SpeakerTalkToListenRatio | A számítás alapja a beszélő monológjában töltött idő (a kettő közötti csend nélkül) és a videó teljes ideje. Az idő kerekítése a harmadik tizedesjegyre történik. |
Címkék
Név | Leírás |
---|---|
id | A címke azonosítója. |
name | A címke neve (például "Számítógép", "TV"). |
language | A címkenév nyelve (lefordítva). BCP-47 |
Példányok | Azoknak az időtartományoknak a listája, ahol ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik egy megbízhatósági mezővel. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
kulcsszavak
Név | Leírás |
---|---|
id | A kulcsszó azonosítója. |
szöveg | A kulcsszó szövege. |
megbízhatóság | A kulcsszó felismerési megbízhatósága. |
language | A kulcsszó nyelve (lefordítva). |
Példányok | Azoknak az időtartományoknak a listája, ahol ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.
Előfordulhat, hogy a felnőtteknek szóló vagy kényes tartalmakat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben az IsAdult
attribútum tartalmazza az emberi felülvizsgálat eredményét.
Név | Leírás |
---|---|
id | A vizualizáció tartalommoderálási azonosítója. |
adultScore | A felnőtt pontszám (a tartalom moderátorából). |
racyScore | A racy pontszám (a tartalommoderálásból). |
Példányok | Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Súgó és támogatás
Kérdéseket tehet fel a Media Serviceshez, vagy kövesse a frissítéseket az alábbi módszerek egyikével:
- Q & A
- Stack Overflow. Kérdések címkézése a következővel:
azure-media-services
. - @MSFTAzureMediavagy @AzureSupport használatával kérjen támogatást.
- Nyisson meg egy támogatási jegyet a Azure Portal keresztül.