Megosztás a következőn keresztül:


Hangeffektusok észlelése

Fontos

Az Azure Media Services kivonási bejelentése miatt az Azure AI Video Indexer bejelenti az Azure AI Video Indexer funkcióinak módosításait. Az Azure Media Service (AMS) kivonásával kapcsolatos változásokért tekintse meg az Azure AI Video Indexer-fiókjának jelentését. Tekintse meg az AMS-kivonás előkészítése: VI frissítési és migrálási útmutatót.

A hangeffektusok észlelése egy Azure AI Video Indexer-funkció, amely észleli a különböző akusztikai eseményekre vonatkozó megállapításokat, és akusztikai kategóriákba sorolja őket. A hangeffektusok észlelése különböző kategóriákat képes észlelni és osztályozni, például nevetést, tömegreakciókat, riasztásokat és/vagy szirénákat.

Amikor a webhelyen dolgozik, a példányok megjelennek a Elemzések lapon. Egy olyan JSON-fájl kategorizált listájában is létrehozhatóak, amely kategóriánként tartalmazza a kategóriaazonosítót, a típust, a nevet és a példányokat, valamint az adott időkereteket és megbízhatósági pontszámot.

Előfeltételek

Átláthatósági megjegyzés áttekintése

Általános alapelvek

Ez a cikk a hangeffektusok észlelését és a technológia felelős használatának legfontosabb szempontjait ismerteti. Az AI-alapú funkciók használatának és implementálásának eldöntésekor számos szempontot figyelembe kell vennie:

  • Jól működik ez a funkció a forgatókönyvemben? Mielőtt hangeffektus-észlelést helyez üzembe a forgatókönyvben, tesztelje, hogyan működik valós adatokkal, és győződjön meg arról, hogy képes a szükséges pontosságra.
  • Fel vagyunk készülve a hibák azonosítására és megoldására? Az AI-alapú termékek és funkciók nem lesznek 100%-ig pontosak, ezért fontolja meg, hogyan fogja azonosítani és megválaszolni az esetleges hibákat.

Az elemzés megtekintése

A példányok a webhelyen való megtekintéséhez tegye a következőket:

  1. A médiafájl feltöltésekor lépjen a Video + Hangindexelés elemre, vagy válassza a Csak hang vagy a Video + Hang lehetőséget, és válassza a Speciális lehetőséget.
  2. A fájl feltöltése és indexelése után lépjen Elemzések, és görgessen a hangeffektusok felé.

A JSON-fájl megjelenítéséhez tegye a következőket:

  1. Válassza a Letöltés –> Elemzések (JSON) lehetőséget.

  2. Másolja az elemet az audioEffects alá insights, és illessze be az Online JSON-megjelenítőbe.

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ],
    

A JSON-fájl API-val való letöltéséhez használja az Azure AI Video Indexer fejlesztői portálját.

Hangeffektus-észlelési összetevők

A hangeffektusok észlelési eljárása során a médiafájlban lévő hang feldolgozása az alábbiak szerint történik:

Összetevő Definíció
Forrásfájl A felhasználó feltölti a forrásfájlt az indexeléshez.
Szegmentáció A hang elemzése, a nem beszélő hang azonosítása és rövid átfedésben lévő belső elemekre való felosztása.
Osztályozás Az AI-folyamatok elemzik az egyes szegmenseket, és eseménykategóriákba sorolják be a tartalmát, például a tömegreakciót vagy a nevetéseket. Ezután létrejön egy valószínűségi lista az egyes eseménykategóriákhoz a részlegspecifikus szabályok szerint.
Megbízhatósági szint Az egyes hangeffektusok becsült megbízhatósági szintje 0 és 1 közötti tartományként van kiszámítva. A megbízhatósági pontszám az eredmény pontosságának bizonyosságát jelzi. A 82%-os biztonság például 0,82-es pontszámként jelenik meg.

Példák az alkalmazási helyzetekre

  • A nagy videóarchívummal rendelkező vállalatok úgy javíthatják az akadálymentességet, hogy több kontextust kínálnak a hallássérült közönség számára a nem beszédes effektusok átiratával.
  • Jobb hatékonyság a nyers adatok tartalomkészítők számára történő létrehozásakor. A promóciók és a pótkocsik fontos pillanatai, például a nevetés, a tömegreakciók, a lövések vagy a robbanások azonosíthatók, például a Media és a Entertainment alkalmazásban.
  • Lövések, robbanások és üvegtörések észlelése és besorolása intelligens városrendszerben vagy más nyilvános környezetben, amelyek kamerákat és mikrofonokat is tartalmaznak, hogy gyors és pontos észlelést nyújtsanak az erőszakkal kapcsolatos incidensek számára.

Használati eset kiválasztásakor megfontolandó szempontok és korlátozások

  • Kerülje a rövid vagy alacsony minőségű hanghasználatot, a hangeffektusok észlelése valószínűségi és részleges adatokat biztosít az észlelt nem beszédes hangeseményeken. A pontosság érdekében a hangeffektusok észleléséhez legalább 2 másodpercnyi tiszta, nem beszédes hang szükséges. A hangparancsok és az éneklés nem támogatott.  

  • Ne használjon hangos háttérzenét vagy zenét ismétlődő és/vagy lineárisan beolvasott gyakorisággal. A hangeffektusok észlelése csak nem beszélő hangra van tervezve, ezért nem tudja besorolni az eseményeket a hangos zenékbe. Az ismétlődő és/vagy lineárisan beolvasott gyakoriságú zene sok esetben helytelenül riasztásként vagy szirénaként van besorolva.

  • A pontosabb valószínűségi adatok előmozdítása érdekében gondosan gondolja át a bűnüldözési és hasonló intézmények használati módszereit, és gondosan tekintse át a következőket:

    • A hangeffektusok csak nem beszédes szegmensekben észlelhetők.
    • A nem beszédes szakaszok időtartama legalább 2 másodperc lehet.
    • A gyenge minőségű hang hatással lehet az észlelési eredményekre.
    • A hangos háttérzene eseményei nincsenek besorolva.
    • Az ismétlődő és/vagy lineárisan beolvasott gyakoriságú zene helytelenül riasztásként vagy szirénaként besorolható.
    • Az ajtó kopogtatása vagy az ajtó becsapása lövésnek vagy robbanásnak is nevezhető.
    • A hosszan tartó kiabálás vagy a fizikai emberi erőkifejtés hangjai helytelenül besorolhatók.
    • A nevető emberek egy csoportja nevetésnek és tömegnek is minősíthető.
    • Természetes és nem esztétikus lövések és robbanások hangok támogatottak.

Felelősségteljes és körültekintő használat esetén az Azure AI Video Indexer számos iparág számára értékes eszköz. Mások magánéletének és biztonságának tiszteletben tartása, valamint a helyi és globális előírások betartása érdekében a következőket javasoljuk:

  • Mindig tartsa tiszteletben az egyén magánélethez való jogát, és csak törvényes és igazolható célokra használja fel a hangokat.  
  • Ne tegye közzé szándékosan a hírességek kisgyermekeinek vagy családtagjainak nem megfelelő hanganyagát, illetve olyan egyéb tartalmakat, amelyek hátrányosak lehetnek, vagy veszélyeztethetik az egyén személyes szabadságát.  
  • Kötelezze el magát az emberi jogok tiszteletben tartása és előmozdítása mellett az elemzett hang kialakításában és üzembe helyezésében.  
  • Harmadik féltől származó anyagok használata esetén vegye figyelembe a meglévő szerzői jogokat vagy engedélyeket, mielőtt azokból származó tartalmakat terjesztené. 
  • Mindig kérjen jogi tanácsot, ha ismeretlen forrásokból származó hangot használ. 
  • Ügyeljen arra, hogy az Ön területén a felhasználókat tartalmazó hanganyagok feldolgozására, elemzésére és megosztására vonatkozó jogszabályokat vagy szabályozásokat alkalmazza. 
  • Tartsa az embert a hurokban. Ne használjon semmilyen megoldást az emberi felügyelet és döntéshozatal pótlására.  
  • Teljes mértékben vizsgálja meg és tekintse át az ön által használt AI-modellekben rejlő lehetőségeket annak képességeinek és korlátainak megértéséhez.