Hangfeldolgozás

Cikk
01/19/2024

A Microsoft Audio Stack beszédfeldolgozási forgatókönyvekhez optimalizált fejlesztések készlete. Ilyenek például a kulcsszófelismerés és a beszédfelismerés. Különböző fejlesztésekből/összetevőkből áll, amelyek a bemeneti hangjelen működnek:

Zajelnyomás – Csökkentse a háttérzaj szintjét.
Sugárformálás – Honosítsa a hang eredetét, és optimalizálja a hangjelet több mikrofonnal.
Dereverberation – Csökkentse a környezet felületeinek hangvisszaverődését.
Akusztikai visszhangszűrés – Letiltja a hang lejátszását az eszközről, miközben a mikrofon bemenete aktív.
Automatikus nyereségvezérlés – Dinamikusan állítsa be a személy hangszintjét a puha hangszórók, a nagy távolságok vagy a nem skálázott mikrofonok figyelembe vételéhez.

A különböző forgatókönyvek és használati esetek különböző optimalizálást igényelhetnek, amelyek befolyásolják a hangfeldolgozási verem működését. Például a távközlési forgatókönyvekben, például a telefonhívásokban elfogadható, hogy a feldolgozást követően kisebb torzulások lépnek fel a hangjelzésben. Ennek az az oka, hogy az emberek továbbra is nagy pontossággal tudják értelmezni a beszédet. Azonban elfogadhatatlan és zavaró, ha egy személy a saját hangját hallja egy visszhangban. Ez ellentétben áll a beszédfeldolgozási forgatókönyvekkel, ahol a torzított hang hátrányosan befolyásolhatja a gép által tanult beszédfelismerési modell pontosságát, de elfogadható, ha kisebb mértékű echo reziduális szinttel rendelkezik.

A feldolgozás helyileg történik, ahol a Speech SDK-t használják. A Rendszer nem továbbít hangadatokat a Microsoft felhőszolgáltatásainak a Microsoft Audio Stack általi feldolgozás céljából. Ez alól az egyetlen kivétel a Beszélgetés átirata szolgáltatás, ahol a rendszer nyers hangot küld a Microsoft felhőszolgáltatásainak feldolgozás céljából.

A Microsoft Audio Stack a Microsoft-termékek széles skáláját is működteti:

Windows – A Microsoft Audio Stack az alapértelmezett beszédfeldolgozási folyamat a Speech audio kategória használatakor.
Microsoft Teams Kijelzők és Microsoft Teams Konferencia eszközök – A Microsoft Teams Kijelzők és Teams Konferencia eszközök a Microsoft Audio Stack használatával teszik lehetővé a kiváló minőségű, kéz nélküli, hangalapú élményt Cortanával.

Speech SDK-integráció

A Speech SDK integrálja a Microsoft Audio Stacket (MAS), így bármely alkalmazás vagy termék használhatja a hangfeldolgozási képességeit a bemeneti hangon. A Speech SDK-val elérhető főbb Microsoft Audio Stack-funkciók közé tartoznak a következők:

Valós idejű mikrofonbemenet és fájlbemenet – A Microsoft Audio Stack-feldolgozás valós idejű mikrofonbemenetre, streamekre és fájlalapú bemenetekre alkalmazható.
Fejlesztések kiválasztása – A forgatókönyv teljes körű vezérlése érdekében az SDK lehetővé teszi, hogy letiltsa az egyes fejlesztéseket, például a dereverberációt, a zajelnyomást, az automatikus nyereségvezérlést és az akusztikai visszhangszűréseket. Ha például a forgatókönyv nem tartalmaz renderelési kimeneti hangot, amelyet el kell tiltani a bemeneti hangból, letilthatja az akusztikai visszhang törlését.
Egyéni mikrofongeometria – Az SDK lehetővé teszi, hogy saját egyéni mikrofongeometriai információkat nyújtson az olyan előre beállított geometriák támogatása mellett, mint a lineáris kétmikrikai, lineáris négy- és körkörös 7 mikrofontömbök (lásd a mikrofontömb javaslatainak támogatott előre beállított geometriáival kapcsolatos további információkat).
Gerendaformálási szögek – A mikrofonokhoz képest meghatározott fényformálási szögek biztosíthatók az előre meghatározott helyről származó hangbemenet optimalizálásához.

A Microsoft Audio Stack használatához szükséges minimális követelmények

A Microsoft Audio Stacket bármely olyan termék vagy alkalmazás használhatja, amely megfelel az alábbi követelményeknek:

Nyers hang – A Microsoft Audio Stack bemenetként nyers (feldolgozatlan) hangot igényel a legjobb eredmény eléréséhez. A már feldolgozott hangszolgáltatás korlátozza a hangverem kiváló minőségű fejlesztéseit.
Mikrofongeometriák – A Microsoft Audio Stack által kínált összes fejlesztés megfelelő végrehajtásához geometriai információkra van szükség az eszközön található mikrofonokról. Az információk közé tartozik a mikrofonok száma, fizikai elrendezésük és koordinátáik. Legfeljebb 16 bemeneti mikrofoncsatorna támogatott.
Visszacsatolás vagy referencia hang – Az a hangcsatorna, amely az eszközről lejátszott hangot jelöli, az akusztikai visszhang törléséhez szükséges.
Bemeneti formátum – A Microsoft Audio Stack támogatja a mintavételezést a 16 kHz-es integrált többszöröseihez tartozó mintavételezéshez. Minimum 16 kHz mintavételezési sebesség szükséges. Emellett a következő formátumok támogatottak: 32 bites I Enterprise kiadás E kis endian float, 32 bites kis endian signed int, 24 bites kis endian signed int, 16 bites kis endian signed int és 8 bites aláírt int.

Következő lépések

A Speech SDK használata hangfeldolgozáshoz

Hangfeldolgozás

Speech SDK-integráció

A Microsoft Audio Stack használatához szükséges minimális követelmények

Következő lépések

További források