Что такое преобразование речи в текст?What is speech-to-text?

Важно!

TLS 1.2 теперь применяется для всех HTTP-запросов к этой службе.TLS 1.2 is now enforced for all HTTP requests to this service. Дополнительные сведения см. в статье Безопасность в Azure Cognitive Services.For more information, see Azure Cognitive Services security.

Преобразование речи в текст из речевой службы, известной также как распознавание речи, позволяет подсчитать звуковые потоки в режиме реального времени в текст.Speech-to-text from the Speech service, also known as speech recognition, enables real-time transcription of audio streams into text. Приложения, средства и устройства могут использовать, отображать и предпринимать действия над этим текстом в качестве входных данных команды.Your applications, tools, or devices can consume, display, and take action on this text as command input. Эта служба работает с помощью той же технологии распознавания, которую корпорация Майкрософт использует для Кортаны и продуктов Office.This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products. Он легко работает с предложениями службы перевода и преобразования текста в речь .It seamlessly works with the translation and text-to-speech service offerings. Полный список доступных языков для перевода речи в текст см. в разделе Поддерживаемые языки.For a full list of available speech-to-text languages, see supported languages.

В службе преобразования речи в текст по умолчанию используется универсальная языковая модель.The speech-to-text service defaults to using the Universal language model. Эта модель была обучена с использованием данных, принадлежащих корпорации Майкрософт, и развертывается в облаке.This model was trained using Microsoft-owned data and is deployed in the cloud. Это оптимальный вариант для сценариев взаимодействия и диктовки.It's optimal for conversational and dictation scenarios. При использовании преобразования речи в текст для распознавания и транскрипции в уникальной среде можно создавать и обучать пользовательские модели акустических, языковых и произношения.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models. Настройка полезна для адресации окружающих шума или отраслевых словарей.Customization is helpful for addressing ambient noise or industry-specific vocabulary.

Если в качестве входных данных используется дополнительный справочный текст, служба преобразования речи в текст также позволяет оценить произношение речи и дает отзывы о точности и владение речевого звука.With additional reference text as input, speech-to-text service also enables pronunciation assessment capability to evaluate speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. С помощью оценки произношения языки могут попрактиковаться, получать мгновенные Отзывы и улучшать их произношение, чтобы они могли говорить и представляться уверенно.With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Преподаватели могут использовать возможности для вычисления произношения нескольких докладчиков в режиме реального времени.Educators can use the capability to evaluate pronunciation of multiple speakers in real-time. В настоящее время эта функция поддерживает американский английский и обеспечивает согласованность с оценкой речи, проводимой экспертами.The feature currently supports American English, and correlates highly with speech assessments conducted by experts.

Примечание

Распознавание речи Bing списано 15 октября 2019 г.Bing Speech was decommissioned on October 15, 2019. Если приложения, средства или продукты используют Распознавание речи Bing API, мы создали руководства, которые помогут вам перейти на службу распознавания речи.If your applications, tools, or products are using the Bing Speech APIs, we've created guides to help you migrate to the Speech service.

Начало работы с речью в текстGet started with speech-to-text

Служба преобразования речи в текст доступна через речевой пакет SDK.The speech-to-text service is available via the Speech SDK. Существует несколько распространенных сценариев, доступных в качестве кратких руководств на различных языках и платформах:There are several common scenarios available as quickstarts, in various languages and platforms:

Если вы предпочитаете использовать службу текста для преобразования речи в текст, ознакомьтесь с разрядом с интерфейсами API для интерфейса RESTful.If you prefer to use the speech-to-text REST service, see REST APIs.

Учебники и примеры кодаTutorials and sample code

После того как у вас будет возможность использовать службы "Речь", просмотрите наше руководство, которое научит вас распознавать намерения из речи с помощью пакета SDK для распознавания речи и LUIS.After you've had a chance to use the Speech service, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

Пример кода для пакета SDK для распознавания речи доступен на сайте GitHub.Sample code for the Speech SDK is available on GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание, а также работа с пользовательскими моделями.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

НастройкаCustomization

Помимо стандартной модели речевой службы, можно создавать пользовательские модели.In addition to the standard Speech service model, you can create custom models. Настройка помогает преодолеть барьеры распознавания речи, такие как стиль речи, словарь и фоновый шум, см. пользовательское распознавание речи.Customization helps to overcome speech recognition barriers such as speaking style, vocabulary and background noise, see Custom Speech. Параметры настройки зависят от языка и языкового стандарта. см. раздел Поддерживаемые языки для проверки поддержки.Customization options vary by language/locale, see supported languages to verify support.

Справочная документацияReference docs

Служба распознавания речи предоставляет два пакета SDK.The Speech service provides two SDKs. Первый пакет SDK — это основной пакет SDK для распознавания речи , который обеспечивает большинство функций, необходимых для взаимодействия со службой распознавания речи.The first SDK is the primary Speech SDK and provides most of the functionalities needed to interact with the Speech service. Второй пакет SDK относится к устройствам и соответствующим образом называется пакетом SDK для речевых устройств.The second SDK is specific to devices, appropriately named the Speech Devices SDK. Оба пакета SDK доступны на многих языках.Both SDKs are available in many languages.

Справочные документы по пакету SDK для распознавания речиSpeech SDK reference docs

Используйте следующий список для поиска соответствующих справочных документов по пакету SDK для распознавания речи:Use the following list to find the appropriate Speech SDK reference docs:

Совет

Пакет SDK речевой службы активно поддерживается и обновляется.The Speech service SDK is actively maintained and updated. Чтобы относить изменения, обновления и дополнения к функциям, см. заметки о выпуске пакета SDK для распознавания речи.To track changes, updates and feature additions refer to the Speech SDK release notes.

Справочные документы по пакету SDK для речевых устройствSpeech Devices SDK reference docs

Пакет SDK для речевых устройств — это надмножество РЕЧЕВОГО пакета SDK с расширенными функциональными возможностями для конкретных устройств.The Speech Devices SDK is a superset of the Speech SDK, with extended functionality for specific devices. Чтобы загрузить пакет SDK для речевых устройств, необходимо сначала выбрать набор средств разработки.To download the Speech Devices SDK, you must first choose a development kit.

Ссылки на REST APIREST API references

Ссылки на различные интерфейсы API-интерфейсов службы распознавания речи см. в приведенном ниже списке.For references of various Speech service REST APIs, refer to the listing below:

Дальнейшие действияNext steps