Ljudbearbetning

Artikel
01/18/2024

Microsoft Audio Stack är en uppsättning förbättringar som optimerats för talbearbetningsscenarier. Detta inkluderar exempel som nyckelordsigenkänning och taligenkänning. Den består av olika förbättringar/komponenter som fungerar på indataljudsignalen:

Brusdämpning – Minska nivån på bakgrundsbruset.
Beamforming – Lokalisera ljudets ursprung och optimera ljudsignalen med hjälp av flera mikrofoner.
Dereverberation – Minska reflektionerna av ljud från ytor i miljön.
Akustisk ekoreducering – Förhindra att ljud spelas upp från enheten medan mikrofoninmatningen är aktiv.
Automatisk förstärkningskontroll – Justera personens röstnivå dynamiskt för att ta hänsyn till mjuka högtalare, långa sträckor eller icke-calibrerade mikrofoner.

Olika scenarier och användningsfall kan kräva olika optimeringar som påverkar beteendet för ljudbearbetningsstacken. I telekommunikationsscenarier som telefonsamtal är det till exempel acceptabelt att ha mindre förvrängningar i ljudsignalen efter att bearbetningen har tillämpats. Detta beror på att människor kan fortsätta att förstå talet med hög noggrannhet. Men det är oacceptabelt och störande för en person att höra sin egen röst i ett eko. Detta står i kontrast till talbearbetningsscenarier, där förvrängt ljud kan påverka en maskininlärd taligenkänningsmodells noggrannhet negativt, men det är acceptabelt att ha mindre nivåer av ekorester.

Bearbetningen utförs helt lokalt där Speech SDK används. Inga ljuddata strömmas till Microsofts molntjänster för bearbetning av Microsoft Audio Stack. Det enda undantaget är för Conversation Transcription Service, där råljud skickas till Microsofts molntjänster för bearbetning.

Microsoft Audio Stack driver också ett brett utbud av Microsoft-produkter:

Windows – Microsoft Audio Stack är standardpipelinen för talbearbetning när du använder kategorin Talljud.
Microsoft Teams-skärmar och Microsoft Teams Rum-enheter – Microsoft Teams-skärmar och Teams Rum-enheter använder Microsoft Audio Stack för att aktivera handsfree- och röstbaserade funktioner av hög kvalitet med Cortana.

Speech SDK-integrering

Speech SDK integrerar Microsoft Audio Stack (MAS), vilket gör att alla program eller produkter kan använda sina ljudbearbetningsfunktioner på indataljud. Några av de viktigaste funktionerna i Microsoft Audio Stack som är tillgängliga via Speech SDK är:

Indata för mikrofon i realtid och filinmatning – Microsoft Audio Stack-bearbetning kan tillämpas på mikrofonindata, strömmar och filbaserade indata i realtid.
Val av förbättringar – För att ge fullständig kontroll över ditt scenario kan du med SDK inaktivera enskilda förbättringar som dereverberation, brusdämpning, automatisk kontroll och akustisk ekoreducering. Om ditt scenario till exempel inte innehåller återgivning av utdataljud som måste ignoreras från indataljudet, kan du inaktivera akustisk ekoreducering.
Anpassade mikrofongeometrier – Med SDK kan du tillhandahålla egen anpassad information om mikrofongeometri, förutom att stödja förinställda geometrier som linjär tvåmikrofon, linjär fyramikrofon och cirkulära 7-mikrofonmatriser (se mer information om förinställda geometrier som stöds vid mikrofonmatrisrekommendationer).
Strålformningsvinklar – Specifika strålformningsvinklar kan tillhandahållas för att optimera ljudindata från en fördefinierad plats i förhållande till mikrofonerna.

Minimikrav för att använda Microsoft Audio Stack

Microsoft Audio Stack kan användas av alla produkter eller program som kan uppfylla följande krav:

Raw Audio – Microsoft Audio Stack kräver obearbetat ljud (obearbetat) ljud som indata för att ge bästa resultat. Att tillhandahålla ljud som redan bearbetas begränsar ljudstackens förmåga att utföra förbättringar av hög kvalitet.
Mikrofongeometri – Geometriinformation om varje mikrofon på enheten krävs för att utföra alla förbättringar som erbjuds av Microsoft Audio Stack. Informationen omfattar antalet mikrofoner, deras fysiska arrangemang och koordinater. Upp till 16 indatamikrofonkanaler stöds.
Loopback eller referensljud – En ljudkanal som representerar ljudet som spelas upp från enheten krävs för att utföra akustisk ekoreducering.
Indataformat – Microsoft Audio Stack stöder nedsampling för exempelfrekvenser som är integrerade multiplar på 16 kHz. En minsta samplingsfrekvens på 16 kHz krävs. Dessutom stöds följande format: 32-bitars IEEE little endian float, 32-bitars little endian signed int, 24-bitars little endian signed int, 16-bitars little endian signed int och 8-bitars signerad int.

Nästa steg

Använda Speech SDK för ljudbearbetning

Ljudbearbetning

Speech SDK-integrering

Minimikrav för att använda Microsoft Audio Stack

Nästa steg

Ytterligare resurser