Vad är Speech-enheter?

Taltjänsten fungerar med en mängd olika enheter och ljudkällor. Du kan använda standardljudbearbetningen som är tillgänglig på en enhet. Annars har Speech SDK ett alternativ för dig att använda våra avancerade algoritmer för ljudbearbetning som är utformade för att fungera bra med Speech-tjänsten. Den ger korrekt taligenkänning långt ut via brusreducering, ekoreducering, beamforming och dereverberation.

Ljudbearbetning

Ljudbearbetning är förbättringar som tillämpas på en ström av ljud för att förbättra ljudkvaliteten. Exempel på vanliga förbättringar är automatisk gain control (AGC), brusdämpning och akustisk ekoreducering (AEC). Speech SDK integrerar Microsoft Audio Stack (MAS) så att alla program eller produkter kan använda sina ljudbearbetningsfunktioner på indataljud.

Mikrofonmatrisrekommendationer

Speech SDK fungerar bäst med en mikrofonmatris utformad enligt våra rekommenderade riktlinjer. Mer information finns i rekommendationer för mikrofonmatris.

Enhetsutvecklingspaket

Speech SDK är utformat för att fungera med specialbyggda utvecklingspaket och varierande konfigurationer av mikrofonmatriser. Du kan till exempel använda något av dessa Azure-utvecklingspaket.

  • Azure Percept DK innehåller en förkonfigurerad ljudprocessor och en linjär matris med fyra mikrofoner. Du kan använda röstkommandon, nyckelords spotting och långt fälttal med hjälp av Azure AI-tjänster.
  • Azure Kinect DK är ett utvecklarpaket för spatial databehandling med avancerade AI-sensorer som tillhandahåller avancerade Azure AI Vision- och talmodeller. Som en allt-i-ett-liten enhet med flera lägen innehåller den en djupsensor, rumslig mikrofonmatris med en videokamera och orienteringssensor.

Nästa steg