Обработка звука

Статья
01/19/2024

Microsoft Audio Stack предоставляет набор улучшений, оптимизированных для сценариев обработки речи. К ним относятся распознавание ключевых слов и распознавание речи. Набор содержит различные усовершенствованные функции и компоненты, которые работают с входным аудиосигналом:

Подавление шума — уменьшает уровень фонового шума.
Формирование луча — локализует источник звука и оптимизирует аудиосигнал с помощью нескольких микрофонов.
Подавление реверберации — уменьшает отражение звука от поверхностей окружающей среды.
Подавление эха — подавляет воспроизведение звука устройством во время передачи данных с микрофона.
Автоматическое управление получением — динамически настраивает уровень голоса человека для учета мягких динамиков, длинных расстояний или немасштабированных микрофонов.

В различных сценариях и вариантах использования требуются разные варианты оптимизации, влияющие на поведение стека обработки звука. Например, в сценариях телекоммуникаций, таких как телефонные звонки, можно иметь незначительные искажения в звуковом сигнале после применения обработки. Это связано с тем, что люди по-прежнему будут понимать речь с высокой степенью точности. Тем не менее, это неприемлемо и разрушительным для человека, чтобы услышать свой собственный голос в эхо. Это контрастирует с сценариями обработки речи, где искаженный звук может негативно повлиять на точность модели распознавания речи машинного обучения, но это приемлемо для незначительных уровней остаточного эха.

Обработка выполняется полностью локально там, где используется пакет SDK службы "Речь". Microsoft Audio Stack не передает аудиоданные в облачные службы Майкрософт для обработки. Единственным исключением является служба транскрибирования бесед, в которой необработанные аудиоданные отправляют облачным службам Майкрософт для обработки.

Microsoft Audio Stack также обеспечивает работу целого спектра продуктов Майкрософт:

Windows — Microsoft Audio Stack используется по умолчанию для категории аудиоданных службы "Речь" в качестве конвейера обработки речи.
В Microsoft Teams отображаются и Комнаты Microsoft Teams устройства — экраны Microsoft Teams и Комнаты Teams устройства используют Microsoft Audio Stack для обеспечения высокого качества работы с голосовой связью с Кортана.

Интеграция с пакетом SDK для службы "Речь"

Пакет SDK для службы "Речь" интегрирует Microsoft Audio Stack (MAS), позволяя любому приложению или продукту применить возможности обработки звука к входным аудиоданным. Ниже перечислены некоторые ключевые функции Microsoft Audio Stack, доступные благодаря пакету SDK службы "Речь".

Входные данные микрофона в режиме реального времени и входные данные файлов — обработка Microsoft Audio Stack может применяться к входным данным микрофона в режиме реального времени, потокам и входным данным на основе файлов.
Выбор усовершенствований. Чтобы разрешить полный контроль над сценарием, пакет SDK позволяет отключить отдельные улучшения, такие как автоматический контроль усиления и подавление реверберации, шума или эха. Например, если ваш сценарий не включает в себя отрисовку выходного звука, который должен быть подавлен из входного звука, у вас есть возможность отключить акустическую отмену эхо.
Пользовательские схемы размещения микрофонов. Пакет SDK позволяет предоставлять собственные сведения о схеме размещения микрофонов, а также поддерживать готовые схемы размещения, такие как два или четыре микрофона, выстроенных в линию, или семь микрофонов, размещенных по кругу. Дополнительные сведения о поддерживаемых готовых схемах размещения см. в статье Рекомендации по использованию массива микрофонов.
Углы формирования луча — можно указать определенные углы формирования луча по отношению к микрофонам, чтобы оптимизировать ввод аудиоданных из предопределенного расположения.

Минимальные требования к использованию Microsoft Audio Stack

Microsoft Audio Stack может использоваться любым продуктом или приложением, которое отвечает следующим требованиям.

Необработанный звук — Microsoft Audio Stack требует необработанного (необработанного) звука в качестве входных данных, чтобы обеспечить наилучшие результаты. Предоставление уже обработанных аудиоданных не позволяет звуковому стеку качественно производить улучшения.
Геометрия размещения микрофонов — сведения о геометрии размещения каждого микрофона на устройстве необходимы для правильного выполнения всех улучшений, предлагаемых Microsoft Audio Stack. К ним относится количество микрофонов, их физическое расположение и координаты. Поддерживается до 16 входных каналов микрофона.
Циклический или эталонный звук — аудиоканал, представляющий звук, который воспроизводится на устройстве, необходим для подавления эха.
Формат ввода — Microsoft Audio Stack поддерживает сокращение выборки для частот дискретизации, кратных 16 кГц. Требуется минимальная частота дискретизации, равная 16 кГц. Кроме того, поддерживаются следующие форматы: 32-разрядное число IEEE с прямым порядком байтов с плавающей запятой, 32-, 24- и 16-разрядное целое число с прямым порядком байтов со знаком, 8-разрядное целое число со знаком.

Следующие шаги

Использование пакета SDK службы "Речь" для обработки звука

Обработка звука

Интеграция с пакетом SDK для службы "Речь"

Минимальные требования к использованию Microsoft Audio Stack

Следующие шаги

Дополнительные ресурсы