Was sind Speech-Geräte?

Der Speech-Dienst kann mit verschiedensten Geräten und Audioquellen verwendet werden. Sie können die Standardaudioverarbeitung verwenden, die auf einem Gerät verfügbar ist. Andernfalls verfügt das Speech SDK über eine Option, mit der Sie unsere erweiterten Audioverarbeitungsalgorithmen verwenden können, die für die Verwendung mit dem Speech-Dienst konzipiert sind. Es bietet eine präzise Fernfeld-Spracherkennung mit Geräuschunterdrückung, Echounterdrückung, Beamforming und Hallunterdrückung.

Audioverarbeitung

Bei der Audioverarbeitung handelt es sich um Optimierungen, die auf einen Audiodatenstrom angewendet werden, um die Audioqualität zu verbessern. Beispiele für häufige Verbesserungen sind die automatische Verstärkungssteuerung (Automatic Gain Control, AGC), die Rauschunterdrückung und der akustische Echoabbruch (Acoustic Echo Cancellation, AEC). Das Speech SDK integriert Microsoft Audio Stack (MAS), sodass jede Anwendung oder jedes Produkt seine Audioverarbeitungsfunktionen auf Eingabeaudiodaten anwenden kann.

Empfehlungen zum Mikrofonarray

Das Speech SDK funktioniert am besten mit einem Mikrofonarray, das gemäß unseren empfohlenen Richtlinien entwickelt wurde. Ausführliche Informationen finden Sie unter Empfehlungen zur Mikrofonanordnung für Speech-SDK-Geräte.

Kits zur Geräteentwicklung

Das Speech SDK wurde für die Verwendung mit speziell entwickelten Development Kits und verschiedenen Mikrofonarraykonfigurationen ausgelegt. Beispielsweise können Sie eines dieser Azure Development Kits verwenden.

  • Azure Percept DK enthält einen vorkonfigurierten Audioprozessor und ein lineares Array mit vier Mikrofonen. Sie können Sprachbefehle, Schlüsselworterkennung und Fernfeldsprache mithilfe von Azure KI Services verwenden.
  • Azure Kinect DK ist ein Entwicklerkit für räumliches Computing mit erweiterten KI-Sensoren, das anspruchsvolle Azure KI Vision- und Sprachmodelle bereitstellt. Als vollintegriertes kleines Gerät mit mehreren Modi enthält es einen Tiefensensor, ein räumliches Mikrofonarray mit einer Videokamera und einen Orientierungssensor.

Nächste Schritte