Mik azok a Beszédeszközök?

A Speech szolgáltatás számos különböző eszközzel és hangforrással használható. Az eszközön elérhető alapértelmezett hangfeldolgozást használhatja. Ellenkező esetben a Speech SDK lehetővé teszi, hogy fejlett hangfeldolgozó algoritmusokat használjon, amelyek a Speech szolgáltatással való együttműködésre lettek tervezve. Pontos távoli beszédfelismerést biztosít a zajelnyomás, a visszhanglefújás, a sugárformázás és a dereverberáció révén.

Hangfeldolgozás

A hangfeldolgozás a hangstreamekre alkalmazott fejlesztések a hangminőség javítása érdekében. Gyakori fejlesztések például az automatikus nyereségszabályozás (AGC), a zajelnyomás és az akusztikai visszhangszűrés (AEC). A Speech SDK integrálja a Microsoft Audio Stacket (MAS), így bármely alkalmazás vagy termék használhatja a hangfeldolgozási képességeit a bemeneti hangon.

Mikrofonsorra vonatkozó javaslatok

A Speech SDK az ajánlott irányelveknek megfelelően tervezett mikrofontömbökkel működik a legjobban. További részletekért tekintse meg a Mikrofontömb javaslatait.

Eszközfejlesztési készletek

A Speech SDK célja a célként létrehozott fejlesztői készletek és a különböző mikrofontömb-konfigurációk kezelése. Használhatja például az azure-beli fejlesztési készletek egyikét.

  • Az Azure Percept DK előre konfigurált hangfeldolgozót és négy mikrofonos lineáris tömböt tartalmaz. Az Azure AI-szolgáltatások segítségével hangparancsokat, kulcsszó-észlelést és távoli beszédet is használhat.
  • Az Azure Kinect DK egy fejlett AI-érzékelőkkel rendelkező térinformatikai fejlesztői készlet, amely kifinomult Azure AI Vision- és beszédmodelleket biztosít. Több móddal rendelkező, mindent egybevetett kis eszközként tartalmaz egy mélységérzékelőt, egy térbeli mikrofontömböt videokamera és tájolásérzékelő segítségével.

Következő lépések