Videó- és hangfájlok elemzése az Azure Media Services használatával

Cikk
06/30/2023

Figyelmeztetés

Az Azure Media Services 2024. június 30-án megszűnik. További információkért lásd az AMS kivezetési útmutatóját.

Fontos

Ahogy a Microsoft felelős AI-szabványai is felvázolják, a Microsoft elkötelezett a méltányosság, az adatvédelem, a biztonság és az átláthatóság mellett az AI-rendszerek tekintetében. A szabványoknak való megfelelés érdekében az Azure Media Services 2023. szeptember 14-én nyugdíjba vonul a Video Analyzer előzetes beállításkészletétől. Ez az előzetes beállítás jelenleg lehetővé teszi, hogy több video- és hangelemzést nyerjen ki egy videófájlból. Az ügyfelek lecserélhetik aktuális munkafolyamataikat az Azure Video Indexer által kínált fejlettebb funkciókészlettel.

A Media Services segítségével elemzéseket nyerhet ki a videó- és hangfájlokból a hang- és videoelemző beállításainak használatával. Ez a cikk az elemzések kinyeréséhez használt elemzőkészleteket ismerteti. Ha részletesebb elemzéseket szeretne a videóiból, használja az Azure Video Indexer szolgáltatást. A Video Indexer és a Media Services elemző előzetes beállításainak használatáról az összehasonlító dokumentumból tájékozódhat.

A Hangelemző előre beállított, alapszintű és standard üzemmódja két módból áll. Tekintse meg az alábbi táblázatban szereplő különbségek leírását.

Ha a Media Services v3 előzetes beállításaival szeretné elemezni a tartalmat, hozzon létre egy átalakítást , és küldjön be egy feladatot , amely a következő beállítások egyikét használja: VideoAnalyzerPreset vagy AudioAnalyzerPreset.

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Megfelelőség, adatvédelem és biztonság

Be kell tartania a Video Indexer használatára vonatkozó összes vonatkozó jogszabályt, és nem használhatja a Video Indexert vagy bármely más Azure-szolgáltatást olyan módon, amely sérti mások jogait, vagy káros lehet másokra nézve. Mielőtt bármilyen videót, beleértve a biometrikus adatokat is, feltöltené a Video Indexer szolgáltatásba feldolgozásra és tárolásra, rendelkeznie kell a videóban szereplő személy(ek) minden megfelelő jogosultságával, beleértve a megfelelő hozzájárulásokat is. A megfelelőségről, az adatvédelemről és a biztonságról a Video Indexerben az Azure Cognitive Services használati feltételeiből tájékozódhat. A Microsoft adatvédelmi kötelezettségeit és az adatok kezelését illetően tekintse át a Microsoft adatvédelmi nyilatkozatát, az online szolgáltatásokra vonatkozó feltételeket ("OST") és az adatfeldolgozási kiegészítést ("DPA"). Az OST-ben további adatvédelmi információk érhetők el, többek között az adatmegőrzéssel, törléssel/törléssel kapcsolatban. A Video Indexer használatával Ön elfogadja, hogy a Cognitive Services feltételeit, az OST-t, a DPA-t és az adatvédelmi nyilatkozatot magára nézve kötelezőnek tekinti.

Beépített előzetes beállítások

A Media Services jelenleg a következő beépített elemzőkészleteket támogatja:

Előre beállított név	Forgatókönyv/mód	Részletek
AudioAnalyzerPreset	A standard hangmód elemzése	Az előre beállított beállítás AI-alapú elemzési műveletek előre definiált készletét alkalmazza, beleértve a beszédátírást is. Az előre beállított beállítás jelenleg támogatja a tartalom feldolgozását egyetlen hangsávon, amely egyetlen nyelven tartalmazza a beszédet. Adja meg a hangtartalom nyelvét a bemenetben a "language tag-region" BCP-47 formátumával. Az elérhető nyelvkódokért tekintse meg az alábbi támogatott nyelvek listáját. Az automatikus nyelvfelismerés kiválasztja az első észlelt nyelvet, és a teljes fájl kijelölt nyelvével folytatódik, ha nincs beállítva, vagy null értékre van állítva. Az automatikus nyelvfelismerési funkció jelenleg a következőket támogatja: angol, kínai, francia, német, olasz, japán, spanyol, orosz és brazíliai portugál. Nem támogatja a nyelvek közötti dinamikus váltást az első nyelv észlelése után. Az automatikus nyelvfelismerési funkció egyértelműen felismerhető beszédet tartalmazó hangfelvételekkel működik a legjobban. Ha az automatikus nyelvfelismerés nem találja a nyelvet, az átírás angolra esik vissza.
AudioAnalyzerPreset	A hang alapszintű módjának elemzése	Ez az előre beállított mód beszéd-szöveg átírást és VTT-alcím/képaláírás fájl létrehozását hajtja végre. Ennek a módnak a kimenete tartalmaz egy Insights JSON-fájlt, amely csak a kulcsszavakat, az átírást és az időzítési információkat tartalmazza. Az automatikus nyelvfelismerés és a hangszóró-diarizáció nem része ennek a módnak. A támogatott nyelvek listája megegyezik a fenti Standard móddal.
VideoAnalyzerPreset	Hang és videó elemzése	Kinyeri az elemzéseket (gazdag metaadatokat) a hangból és a videóból, és egy JSON formátumú fájlt ad ki. Megadhatja, hogy csak videofájl feldolgozásakor szeretne-e hangelemzéseket kinyerni.
FaceDetectorPreset	A videóban szereplő arcok észlelése	A videó elemzésekor a jelen lévő arcok észleléséhez használandó beállításokat ismerteti.

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

Támogatott nyelvek

Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' és 'ar-SY')
Brazíliai portugál (pt-BR)
Kínai ('zh-CN')
Dán(da-DK)
Angol ('en-US', 'en-GB' és 'en-AU')
Finn (fi-FI)
Francia (fr-FR és fr-CA)
Német ('de-DE')
Héber (he-IL)
Hindi ('hi-IN'), koreai ('ko-KR')
Olasz (it-IT)
Japán ('ja-JP')
Norvég ('nb-NO')
Perzsa (fa-IR)
Portugál portugál (pt-PT)
Orosz (ru-RU)
Spanyol (es-ES és es-MX)
Svéd (sv-SE)
Thai (th-TH)
Török ('tr-TR')

Megjegyzés

Az AudioAnalyzerPreset nem támogatott, ha a tárfiók nem rendelkezik nyilvános hálózati hozzáféréssel.

AudioAnalyzerPreset standard mód

A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt) és egy VTT-fájlt a hanganyag átiratához. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A hangelemzések a következők:

Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott.
Kulcsszavak: A hangátírásból kinyert kulcsszavak.

AudioAnalyzerElőzetes alapszintű mód

A beállításkészlettel több hangelemzést is kinyerhet egy hang- vagy videofájlból.

A kimenet tartalmaz egy JSON-fájlt és egy VTT-fájlt a hangátirathoz. Ez az előre beállított beállítás elfogad egy tulajdonságot, amely a bemeneti fájl nyelvét BCP47 sztring formájában határozza meg. A kimenet a következőket tartalmazza:

Hangátírás: A kimondott szavak átirata időbélyegekkel. Több nyelv is támogatott, de az automatikus nyelvfelismerés és a beszélő-diarizálás nem szerepel a csomagban.
Kulcsszavak: A hangátírásból kinyert kulcsszavak.

VideoAnalyzerPreset

A beállításkészlettel több hang- és videoelemzést nyerhet ki egy videófájlból. A kimenet tartalmaz egy JSON-fájlt (az összes megállapítással együtt), egy VTT-fájlt a videó átiratához, valamint egy miniatűrgyűjteményt. Ez az előzetes beállítás egy BCP47-sztringet is elfogad (amely a videó nyelvét jelöli) tulajdonságként. A videoelemzések tartalmazzák a fent említett összes hangelemzést, valamint a következő további elemeket:

Arckövetés: Az az idő, amely alatt az arcok megjelennek a videóban. Minden arc arcazonosítóval és miniatűrök megfelelő gyűjteményével rendelkezik.
Vizuális szöveg: Az optikai karakterfelismeréssel észlelt szöveg. A szöveget időbélyeggel bélyegzik, és kulcsszavak kinyerésére is használják (a hangátiraton kívül).
Kulcskeretek: A videóból kinyert kulcskeretek gyűjteménye.
Vizuális tartalommoderálás: A videók felnőttként vagy racy-ként megjelölt része.
Széljegyzet: A videók egy előre definiált objektummodell alapján történő jegyzetelésének eredménye

insights.json elemek

A kimenet tartalmaz egy JSON-fájlt (insights.json), amely a videóban vagy a hangban található összes megállapítást tartalmazza. A JSON a következő elemeket tartalmazhatja:

Átirat

Név	Leírás
id	A sor azonosítója.
szöveg	Maga az átirat.
language	Az átirat nyelve. Az átiratok támogatására szolgál, ahol az egyes sorok nyelve eltérő lehet.
Példányok	Azon időtartományok listája, ahol ez a sor megjelent. Ha a példány átirat, akkor csak egy példánya lesz.

Példa:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Név	Leírás
id	Az OCR-sor azonosítója.
szöveg	Az OCR szövege.
megbízhatóság	Az elismerés megbízhatósága.
language	Az OCR nyelve.
Példányok	Azoknak az időtartományoknak a listája, ahol ez az OCR megjelent (ugyanaz az OCR többször is megjelenhet).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Arcok

Név	Leírás
id	Az arcazonosító.
name	Az arcnév. Lehet "Ismeretlen #0", azonosított híresség vagy egy ügyfél által betanított személy.
megbízhatóság	Az arcazonosítás megbízhatósága.
leírás	A híresség leírása.
thumbnailId	Az arc miniatűrjének azonosítója.
knownPersonId	A belső azonosító (ha ismert személy).
referenceId	A Bing-azonosító (ha ez egy Bing híresség).
referenceType	Jelenleg csak Bing.
cím	A cím (ha hírességről van szó– például "A Microsoft vezérigazgatója").
imageUrl	A kép URL-címe, ha híresség.
Példányok	Olyan példányok, ahol az arc az adott időtartományban jelent meg. Minden példány rendelkezik miniatűr azonosítóval is.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Lövések

Név	Leírás
id	A lövés azonosítója.
Kulcsképek	A felvételen belüli kulcskeretek listája (mindegyik rendelkezik azonosítóval és a példányok időtartományainak listájával). A kulcskeretek példányai rendelkeznek egy thumbnailId mezővel, amely tartalmazza a keyFrame miniatűr-azonosítóját.
Példányok	A felvétel időtartományainak listája (a felvételeknek csak egy példánya van).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statisztikák

Név	Leírás
Levelezési fiók	A videóban szereplő levelezések száma.
WordCount	A szavak száma beszélőnként.
SpeakerNumberOfFragments	A beszélő által a videóban található töredékek mennyisége.
SpeakerLongestMonolog	A beszélő leghosszabb monológja. Ha a hangszórón belül csendek vannak a monológban, az is benne van. A monolog elején és végén lévő csend el lesz távolítva.
SpeakerTalkToListenRatio	A számítás alapja a beszélő monológjában töltött idő (a kettő közötti csend nélkül) és a videó teljes ideje. Az idő kerekítése a harmadik tizedesjegyre történik.

Címkék

Név	Leírás
id	A címke azonosítója.
name	A címke neve (például "Számítógép", "TV").
language	A címkenév nyelve (lefordítva). BCP-47
Példányok	Azoknak az időtartományoknak a listája, ahol ez a címke megjelent (egy címke többször is megjelenhet). Minden példány rendelkezik egy megbízhatósági mezővel.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

kulcsszavak

Név	Leírás
id	A kulcsszó azonosítója.
szöveg	A kulcsszó szövege.
megbízhatóság	A kulcsszó felismerési megbízhatósága.
language	A kulcsszó nyelve (lefordítva).
Példányok	Azoknak az időtartományoknak a listája, ahol ez a kulcsszó megjelent (egy kulcsszó többször is megjeleníthető).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

A visualContentModeration blokk olyan időtartományokat tartalmaz, amelyekről a Video Indexer felnőtt tartalommal rendelkezik. Ha a visualContentModeration üres, nincs azonosítva felnőtt tartalom.

Előfordulhat, hogy a felnőtteknek szóló vagy kényes tartalmakat tartalmazó videók csak privát megtekintésre érhetők el. A felhasználók kérelmet küldhetnek a tartalom emberi felülvizsgálatára, amely esetben az IsAdult attribútum tartalmazza az emberi felülvizsgálat eredményét.

Név	Leírás
id	A vizualizáció tartalommoderálási azonosítója.
adultScore	A felnőtt pontszám (a tartalom moderátorából).
racyScore	A racy pontszám (a tartalommoderálásból).
Példányok	Azoknak az időtartományoknak a listája, ahol ez a vizuális tartalommoderálás megjelent.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Súgó és támogatás

Kérdéseket tehet fel a Media Serviceshez, vagy kövesse a frissítéseket az alábbi módszerek egyikével:

Q & A
Stack Overflow. Kérdések címkézése a következővel: azure-media-services.
@MSFTAzureMedia vagy @AzureSupport használatával kérjen támogatást.
Nyisson meg egy támogatási jegyet a Azure Portal keresztül.

Videó- és hangfájlok elemzése az Azure Media Services használatával

Megfelelőség, adatvédelem és biztonság

Beépített előzetes beállítások

Támogatott nyelvek

AudioAnalyzerPreset standard mód

AudioAnalyzerElőzetes alapszintű mód

VideoAnalyzerPreset

insights.json elemek

Átirat

Ocr

Arcok

Lövések

Statisztikák

Címkék

kulcsszavak

visualContentModeration

Súgó és támogatás

További források