Новые возможности службы "Речь с помощью искусственного интеллекта Azure"?

Статья
01/21/2024

Служба "Речь ИИ Azure" обновляется на постоянной основе. Чтобы вы оставались в курсе последних разработок, в этой статье предоставлены сведения о новых выпусках и возможностях.

Последние моменты

Служба "Речь Azure AI" поддерживает текст OpenAI для голосовой речи. Дополнительные сведения см. в разделе "Что такое текст OpenAI для голосов речи?".
Пользовательский API голосовой связи доступен для создания профессиональных и личных моделей нейронных голосовых моделей и управления ими.
Теперь служба "Речь ИИ Azure" поддерживает модель Whisper OpenAI с помощью API пакетной транскрибирования. Чтобы узнать больше, проверка руководства по созданию пакетной транскрибирования.

Заметки о выпуске

Выберите службу или ресурс

Предстоящие планы для пользователей Linux и Android:

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Пожалуйста, рассмотрите возможность использования и планирования соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

Ubuntu 18.04 также достигла конца жизни в апреле 2023 года, поэтому наши пользователи должны подготовиться к переходу к нашей минимальной версии до Ubuntu 20.04.

Пакет SDK службы "Речь" 1.37.0: выпуск 2024-апрель

Новые возможности

Добавьте поддержку потоковой передачи текста ввода в синтез речи.
Измените голос синтеза речи по умолчанию на en-US-AvaMultilingualNeural.
Обновите сборки Android, чтобы использовать OpenSSL 3.x.

Исправления ошибок

Исправьте случайные сбои JVM во время удаления SpeechRecognizer при использовании MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Улучшено обнаружение звуковых устройств по умолчанию в Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Примеры

Обновлено для новых функций.

Пакет SDK для службы "Речь" 1.36.0: выпуск за март 2024 г.

Новые возможности

Добавьте поддержку идентификации языка в многоязычном переводе конечных точек версии 2 с помощью AutoDetectSourceLanguageConfig::FromOpenRange().

Исправления ошибок

Исправление события SynthesisCanceled, не запущенное при вызове остановки во время события SynthesisStarted.
Исправлена проблема с шумом во встроенном синтезе речи.
Исправьте сбой во встроенном распознавании речи при параллельном выполнении нескольких распознавателей.
Исправьте параметр режима обнаружения фраз в конечных точках версии 1/2.
Устранены различные проблемы с Microsoft Audio Stack.

Примеры

Обновления для новых функций.

Пакет SDK для службы "Речь" 1.35.0: выпуск за февраль 2024 г.

Новые возможности

Измените текст по умолчанию на голос речи из en-US-JennyMultilingualNeural на en-US-AvaNeural.
Поддержка сведений на уровне слова в внедренных результатах перевода речи с помощью подробного формата выходных данных.

Исправления ошибок

Исправление API получения позиции AudioDataStream в Python.
Исправление перевода речи с помощью конечных точек версии 2 без обнаружения языка.
Исправьте случайный сбой и повторяющиеся события границ слова в внедренном тексте в речь.
Возвращает правильный код ошибки отмены для внутренней ошибки сервера в подключениях WebSocket.
Исправлена ошибка загрузки библиотеки FPIEProcessor.dll при использовании MAS с C#.

Примеры

Незначительные обновления форматирования для примеров встроенного распознавания.

Пакет SDK службы "Речь" 1.34.1: выпуск за январь 2024 г.

Критические изменения

Исправление ошибок только

Новые возможности

Исправление ошибок только

Исправления ошибок

Исправлена регрессия, представленная в версии 1.34.0, где URL-адрес конечной точки службы был создан с плохими сведениями о языковом стандарте для пользователей в нескольких регионах Китая.

Пакет SDK для службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Критические изменения

SpeechRecognizer обновлен для использования новой конечной точки по умолчанию (т. е. при явном указании URL-адреса), которая больше не поддерживает параметры строки запроса для большинства свойств. Вместо настройки параметров строки запроса непосредственно с помощью ServicePropertyChannel.UriQueryParameter используйте соответствующие функции API.

Новые возможности

Совместимость с .NET 8 (исправление за https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 исключением предупреждения о centos7-x64)
Поддержка встроенных метрик производительности речи, которые можно использовать для оценки возможностей устройства для запуска внедренной речи.
Поддержка идентификации исходного языка в внедренном многоязычном переводе.
Поддержка внедренного преобразования речи в текст, текст в речь и перевод для iOS и Swift/Objective-C, выпущенных в предварительной версии.
Встроенная поддержка предоставляется в MicrosoftCognitiveServicesSpeechEmbeddededed-iOS Cocoapod.

Исправления ошибок

Исправление для пакета SDK для iOS x2 раз увеличения двоичного размера · Проблема #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Исправлено, чтобы не удалось получить метки времени слова из речи Azure в текстовый API · Проблема #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Исправление для этапа уничтожения диалоговой службы Подключение or, чтобы правильно отключить события. Это приводило к сбою иногда.
Исправлено исключение во время создания распознавателя при использовании MAS.
FPIEProcessor.dll из пакета NuGet Microsoft.CognitiveServices.Speech.Extension.MAS для Windows UWP x64 и ARM64 имели зависимость от библиотек среды выполнения VC для собственного C++. Проблема была исправлена путем обновления зависимости до исправления библиотек среды выполнения VC (для UWP).
Исправление для повторяющихся вызовов для распознаванияOnceAsync приводит к SPXERR_ALREADY_INITIALIZED при использовании MAS · Проблема 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Исправлена ошибка встроенного распознавания речи при использовании списков фраз.

Примеры

Внедренные примеры iOS для преобразования речи в текст, текст для речи и перевода.

Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Новые возможности

Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

Обновлена зависимость JMESPath до последнего выпуска, улучшается оценка строк

Пакет SDK для службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Уведомление о критических изменениях

Теперь новый пакет NuGet, добавленный для Microsoft Audio Stack (MAS), должен быть включен приложениями, использующими MAS в файлах конфигурации пакета.

Новые возможности

Добавлен новый пакет NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, который обеспечивает улучшенную производительность отмены эха при использовании Microsoft Audio Stack
Оценка произношения: добавлена поддержка просодии и оценки содержимого, которая может оценить речь с точки зрения просодии, словаря, грамматики и темы.

Исправления ошибок

Исправлены смещения результатов распознавания ключевое слово, чтобы они правильно соответствовали входной звуковой поток с самого начала. Исправление относится как к автономному ключевое слово распознаванию, так и к распознаванию речи, активировав ключевое слово.
Исправленная остановка синтезатора не возвращает немедленно метод SPXSpeechSynthesizer stopSpeaking() не может немедленно вернуться в iOS 17 — проблема #2081
Исправлена проблема импорта катализатора Mac в модуле Swift для mac catalyst с apple silicon. Проблема #1948
JS: модуль AudioWorkletNode теперь загружает доверенный URL-адрес, а резервный вариант для браузера CDN включает в себя.
JS: Упакованные файлы lib теперь предназначены для ES6 JS, с поддержкой ES5 JS удален.
JS: промежуточные события для сценария перевода, предназначенного для конечной точки версии 2, правильно обрабатываются
JS: свойство языка для TranslationRecognitionEventArgs теперь устанавливается для событий translation.hypothesis.
Синтез речи: событие SynthesisCompleted гарантированно будет выдаваться после всех событий метаданных, поэтому его можно использовать для указания конца событий. Как определить, когда виземы получаются полностью? Проблема #2093 Azure-Samples/cognitive-services-speech-sdk

Примеры

Добавлен пример для демонстрации потоковой передачи MULAW с помощью Python)
Исправление примера NAudio для преобразования речи в текст

Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Новые возможности

Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

ничего

Пакет SDK для службы "Речь" версии 1.32.1: выпуск за сентябрь 2023 г.

Исправления ошибок

Обновления пакетов Android с последними исправлениями безопасности из OpenSSL1.1.1v
JS — свойство WebWorkerLoadType, добавленное для разрешения обхода загрузки URL-адреса данных для рабочей роли времени ожидания
JS — исправление отключения перевода бесед через 10 минут
JS — маркер проверки подлинности перевода бесед из беседы теперь распространяется на подключение службы перевода

Примеры

Транскрибирование бесед с помощью API Swift

Пакет SDK для службы "Речь" 1.31.0: выпуск за август 2023 г.

Новые возможности

Поддержка диаризации в режиме реального времени доступна в общедоступной предварительной версии с помощью пакета SDK для службы "Речь" 1.31.0. Эта функция доступна в следующих пакетах SDK: C#, C++, Java, JavaScript, Python и Objective-C/Swift.
Синхронизированные события синтеза речи и события viseme с воспроизведением звука

Критические изменения

Бывший сценарий транскрибирования бесед переименовывается в "транскрибирование собраний". Например, используйте MeetingTranscriber вместо ConversationTranscriberнего и используйте CreateMeetingAsync вместо CreateConversationAsyncнего. Хотя имена объектов и методов пакета SDK изменились, переименование не изменяет саму функцию. Используйте объекты транскрибирования собраний для транскрибирования собраний с профилями пользователей и подписями голоса. Дополнительные сведения см . в разделе "Транскрибирование собраний ". Объекты и методы перевода бесед не влияют на эти изменения. Объект и его методы по-прежнему можно использовать ConversationTranslator для сценариев перевода собраний.

Для диаризации в режиме реального времени представлен новый ConversationTranscriber объект. Новая объектная модель транскрибирования бесед и шаблоны вызовов похожи на непрерывное распознавание с SpeechRecognizer объектом. Ключевое различие заключается в том, что ConversationTranscriber объект предназначен для использования в сценарии беседы, в котором требуется различать несколько динамиков (диаризация). Профили пользователей и голосовые подписи не применимы. Дополнительные сведения см. в кратком руководстве по диаризации в режиме реального времени.

В этой таблице показаны предыдущие и новые имена объектов для диаризации в режиме реального времени и транскрибирования собраний. Имя сценария находится в первом столбце, предыдущие имена объектов находятся во втором столбце, а новые имена объектов находятся в третьем столбце.

Имя сценария	Предыдущие имена объектов	Новые имена объектов
Диаризация в режиме реального времени	Н/П	`ConversationTranscriber`
Транскрибирование собраний	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Объекты ParticipantParticipantChangedReasonи User объекты применимы как к транскрибированию собраний, так и к сценариям перевода собраний.

² Объект Meeting является новым и используется с MeetingTranscriber объектом.

Исправления ошибок

Исправлена минимальная поддерживаемая версия macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Исправлена ошибка оценки произношения:
- Устранена проблема с оценкой точности телефонной меры, гарантируя, что они теперь точно отражают только конкретный неправильно пропрогнозированные фонемы. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Устранена проблема, из-за которой функция оценки произношения была неточно идентифицирует совершенно правильные произношения как ошибочное, особенно в ситуациях, когда слова могут иметь несколько допустимых произношений. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Примеры

Пакет SDK для службы "Речь" 1.30.0: выпуск за июль 2023 г.

Новые возможности

C++, C#, Java — добавлена поддержка DisplayWords в подробном результате встроенного распознавания речи.
Objective-C/Swift — добавлена поддержка ConnectionMessageReceived события в Objective-C/Swift.
Objective-C/Swift — улучшены модели обнаружения ключевое слово для iOS. Это изменение увеличило размер определенных пакетов, содержащих двоичные файлы iOS (например, NuGet, XCFramework). Мы работаем над уменьшением размера будущих выпусков.

Исправления ошибок

Исправлена утечка памяти при использовании распознавателя речи с PhraseListGrammar, как сообщает клиент (проблема GitHub).
Исправлена взаимоблокировка текста для преобразования речи в API открытых подключений.

Дополнительные примечания

Java — некоторые внутренние используемые public методы API Java были изменены на пакет internalprotected или private. Это изменение не должно влиять на разработчиков, так как мы не ожидаем, что приложения будут использовать их. Отмечается здесь для прозрачности.

Примеры

Новые примеры оценки произношения о том, как указать язык обучения в собственном приложении
- C#: см . пример кода.
- C++: см . пример кода.
- JavaScript: см . пример кода.
- Objective-C: см . пример кода.
- Python: см . пример кода.
- Swift: см . пример кода.

Пакет SDK для службы "Речь" 1.29.0: выпуск за июнь 2023 г.

Новые возможности

C++, C#, Java — предварительная версия внедренных API перевода речи. Теперь вы можете выполнять перевод речи без облачного подключения!
JavaScript — непрерывная идентификация языка (LID) теперь включена для перевода речи.
JavaScript — вклад сообщества для добавления LocaleName свойства в VoiceInfo класс. Благодарим пользователя GitHub shivsarthak за запрос на вытягивание.
C++, C#, Java — добавлена поддержка повторного преобразования внедренного текста в речь с частотой от 16 кГц до 48 кГц.
Добавлена поддержка hi-IN языкового стандарта в распознаватель намерений с помощью простого сопоставления шаблонов.

Исправления ошибок

Исправлена авария, вызванная состоянием гонки в Распознаватель речи во время уничтожения объектов, как показано в некоторых наших тестах Android
Исправлены возможные взаимоблокировки в распознавателье намерений с помощью простого сопоставления шаблонов

Примеры

Новые примеры перевода внедренных речи

Пакет SDK для службы "Речь" 1.28.0: выпуск за май 2023 г.

Критическое изменение

Пакет SDK для JavaScript: протокол OCSP (Online Certificate Status Protocol( OCSP) был удален. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.28 и далее больше не будет включать наш пользовательский модуль OCSP.

Новые возможности

Встроенное распознавание речи теперь возвращается NoMatchReason::EndSilenceTimeout , когда время ожидания молчания происходит в конце речевых фрагментов. Это соответствует поведению при распознавании с помощью службы распознавания речи в режиме реального времени.
Пакет SDK для JavaScript: задайте свойства для SpeechTranslationConfig использования PropertyId значений перечисления.

Исправления ошибок

C# в Windows — исправление потенциального состояния гонки и взаимоблокировки в расширении звука Windows. В сценариях, которые быстро удаляют средство отрисовки звука, а также используют метод синтезатора для остановки речи, базовое событие не сбрасывается по остановке и может привести к тому, что объект отрисовщика никогда не будет удален, все время как он может хранить глобальную блокировку для удаления, заморозить поток dotnet GC.

Примеры

Добавлен внедренный образец речи для MAUI.
Обновлен пример внедренной речи для Android Java, чтобы включить текст в речь.

Пакет SDK для службы "Речь" 1.27.0: выпуск за апрель 2023 г.

Уведомление о предстоящих изменениях

Мы планируем удалить протокол состояния сертификатов в Интернете (OCSP) в следующем выпуске пакета SDK javaScript. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.27 — это последний выпуск, включающий наш пользовательский модуль OCSP.

Новые возможности

JavaScript — добавлена поддержка ввода микрофона из браузера с помощью идентификации и проверки говорящего.
Встроенное распознавание речи — обновление поддержки PropertyId::Speech_SegmentationSilenceTimeoutMs параметров.

Исправления ошибок

Общие — обновления надежности в логике повторного подключения служб (все языки программирования, кроме JavaScript).
Общие сведения . Исправление утечки памяти строк в Windows (все соответствующие языки программирования, кроме JavaScript).
Встроенное распознавание речи — исправление сбоя во французском распознавании речи при использовании определенных записей списка грамматики.
Документация по исходному коду — исправления в справочной документации по пакету SDK, связанные с ведением журнала звука в службе.
Распознавание намерений— исправление приоритетов сопоставления шаблонов, связанных с сущностями списка.

Примеры

Правильно обработайте сбой проверки подлинности в примере транскрибирования бесед C# (CTS).
Добавлен пример оценки произношения потоковой передачи для Python, JavaScript, Objective-C и Swift.

Пакет SDK для службы "Речь" версии 1.26.0: выпуск за март 2023 г.

Критические изменения

Bitcode отключен во всех целевых объектах iOS в следующих пакетах: Cocoapod с xcframework, NuGet (для Xamarin и MAUI) и Unity. Это изменение связано с прекращением поддержки биткода Apple из Xcode 14 и более поздних версий. Это изменение также означает, что если вы используете Xcode 13 версии или явно включили бит-код в приложении с помощью пакета SDK для службы "Речь", может возникнуть ошибка с сообщением "Платформа не содержит биткода и необходимо перестроить его". Чтобы устранить эту проблему, убедитесь, что целевые объекты отключили битовый код.
Минимальный целевой объект развертывания iOS обновлен до версии 11.0 в этом выпуске, что означает, что armv7 HW больше не поддерживается.

Новые возможности

Встроенное распознавание речи (на устройстве) теперь поддерживает как 8, так и 16-кГц входной звук частоты выборки (16-разрядный на выборку, моно PCM).
Синтез речи теперь сообщает о задержках подключения, сети и службы в результате, чтобы помочь в комплексной оптимизации задержки.
Новые правила нарушения привязки для распознавания намерений с простым сопоставлением шаблонов. Чем больше символов, тем больше байтов, которые совпадают, выиграют над шаблонными совпадениями с нижним числом байтов. Пример: шаблон "Выбрать {что-то} в правом верхнем углу" выиграет "Выбрать {что-то}"

Исправления ошибок

Синтез речи: исправлена ошибка, из-за которой эмодзи не правильно в событиях границ слова.
Распознавание намерений с помощью беседы Распознавание речи (CLU):
- Намерения из рабочего процесса оркестратора CLU теперь отображаются правильно.
- Результат JSON теперь доступен с помощью идентификатора LanguageUnderstandingServiceResponse_JsonResultсвойства.
Распознавание речи с активацией ключевое слово: исправление отсутствия звука около 150 мс после распознавания ключевое слово.
Исправление сборки выпуска пакета SDK для службы "Речь" для NuGet iOS MAUI, сообщаемой клиентом (проблема с GitHub)

Примеры

Исправление примера Swift iOS, сообщаемого клиентом (проблема с GitHub)

Пакет SDK для службы "Речь" 1.25.0: выпуск за январь 2023 г.

Критические изменения

API-интерфейсы идентификации языка (предварительная версия) были упрощены. Если вы обновляете пакет SDK для службы "Речь" версии 1.25 и видите разрыв сборки, посетите страницу идентификации языка, чтобы узнать о новом свойстве SpeechServiceConnection_LanguageIdMode. Это одно свойство заменяет два предыдущих SpeechServiceConnection_SingleLanguageIdPriority и SpeechServiceConnection_ContinuousLanguageIdPriority. Приоритет между низкой задержкой и высокой точностью больше не требуется после недавних улучшений модели. Теперь при выполнении непрерывного распознавания речи или перевода необходимо выбрать, следует ли выполнять функцию при запуске или непрерывной идентификации языка.

Новые возможности

C#/C++/Java: внедренный пакет SDK для службы "Речь" теперь выпущен в общедоступной предварительной версии. См. документацию по внедренной речи (предварительная версия). Теперь вы можете выполнять речь на устройстве с текстом и текстом, если подключение к облаку периодически или недоступно. Поддерживается на платформах Android, Linux, macOS и Windows
C# MAUI: поддержка, добавленная для целевых объектов iOS и Mac Catalyst в Пакете SDK для службы "Речь" (проблема с клиентом)
Unity: архитектура Android x86_64 добавлена в пакет Unity (проблема с клиентом)
Перейти:
- Поддержка прямой потоковой передачи ALAW/MULAW, добавленная для распознавания речи (проблема с клиентом)
- Добавлена поддержка PhraseListGrammar. Благодарим пользователя GitHub čoko за вклад сообщества!
C#/C++: Распознаватель намерений теперь поддерживает модели общения Распознавание речи в C++ и C# с оркестрацией в службе Майкрософт

Исправления ошибок

Исправление случайного зависания в KeywordRecognizer при попытке остановить его
Python:
- Исправление для получения результатов оценки произношения при PronunciationAssessmentGranularity.FullText установке (проблема с клиентом)
- Исправление гендерных свойств для голосов мужчин, которые не извлекаются, при получении голосов синтеза речи
JavaScript
- Исправление для синтаксического анализа некоторых WAV-файлов, записанных на устройствах iOS (проблема клиента)
- Пакет SDK для JS теперь создает без использования npm-force-resolutions (проблема с клиентом)
- Переводчик беседы теперь правильно задает конечную точку службы при использовании экземпляра speechConfig, созданного с помощью SpeechConfig.fromEndpoint()

Примеры

Добавлены примеры использования внедренной речи
Добавлен пример речи в текст для MAUI

См . репозиторий примеров пакета SDK службы "Речь".

Пакет SDK для службы "Речь" 1.24.2: выпуск за ноябрь 2022 г.

Новые возможности

Нет новых функций, просто исправление встроенного ядра для поддержки новых файлов моделей.

Исправления ошибок

Все языки программирования
- Исправлена проблема с шифрованием внедренных моделей распознавания речи.

Пакет SDK для службы "Речь" 1.24.1: выпуск за ноябрь 2022 г.

Новые возможности

Опубликованные пакеты для предварительной версии встроенной речи. Дополнительные сведения см. в разделе https://aka.ms/embedded-speech.

Исправления ошибок

Все языки программирования
- Исправлена ошибка встроенного сбоя TTS, если шрифт голосовой связи не поддерживается
- Исправление stopSpeaking() не может остановить воспроизведение в Linux (#1686)
Пакет SDK для JavaScript
- Исправлена регрессия в том, как транскрибируемый звук беседы.
Java
- Временно опубликовано обновленные файлы POM и Javadocs в Maven Central, чтобы конвейер документов мог обновлять справочные документы в Интернете.
Python
- Исправлена регрессия, из-за которой Python speak_text(ssml) возвращает void.

Пакет SDK для службы "Речь" 1.24.0: выпуск за октябрь 2022 г.

Новые возможности

Все языки программирования: AMR-WB (16khz), добавленный в поддерживаемый список форматов вывода звука в речь
Python: пакет, добавленный для Linux ARM64 для поддерживаемых дистрибутивов Linux.
C#/C++/Java/Python: добавлена поддержка прямой потоковой передачи ALAW и MULAW в службу распознавания речи (в дополнение к существующему потоку PCM).AudioStreamWaveFormat
C# MAUI: пакет NuGet обновлен для поддержки целевых объектов Android для разработчиков .NET MAUI (проблема с клиентом)
Mac: добавлен отдельный XCframework для Mac, который не содержит двоичных файлов iOS. Это позволяет разработчикам, которым требуется только двоичные файлы Mac, используя меньший пакет XCframework.
Microsoft Audio Stack (MAS):
- При указании углов формирования луча звук, исходящий за пределами указанного диапазона, будет подавляться лучше.
- Примерно 70 % уменьшает размер libMicrosoft.CognitiveServices.Speech.extension.mas.so linux ARM32 и Linux ARM64.
Распознавание намерений с помощью сопоставления шаблонов:
- Добавление поддержки орфографии для языков fr, , esdejp
- Добавлена предварительно созданная поддержка целочисленного числа для языка es.

Исправления ошибок

iOS: исправлена ошибка синтеза речи в iOS 16, вызванная сбоем сжатия звука (проблема клиента).
JavaScript:
- Исправление маркера проверки подлинности, не работающего при получении голосового списка синтеза речи (проблема клиента).
- Используйте URL-адрес данных для загрузки рабочих ролей (проблема с клиентом).
- Создайте рабочий лет звукового процессора, только если AudioWorklet поддерживается в браузере (проблема с клиентом). Это был вклад сообщества Уильям Вонг. Спасибо Уильяму!
- Исправьте распознанный обратный вызов, если ответ connectionMessage LUIS пуст (проблема с клиентом).
- Правильно задать время ожидания сегментации речи.
Распознавание намерений с помощью сопоставления шаблонов:
- Символы, отличные от json в моделях, теперь будут загружаться должным образом.
- Исправлена проблема с зависанием при recognizeOnceAsync(text) вызове во время непрерывного распознавания.

Пакет SDK для службы "Речь" 1.23.0, выпуск июля 2022 г.

новые функции;

C#, C++, Java: добавлена поддержка языков zh-cn и zh-hk для Распознавания намерений с Сопоставлением шаблонов.
C#: добавлена поддержка сборок платформы AnyCPU .NET

Исправления ошибок

Android: исправлена уязвимость OpenSSL CVE-2022-2068 путем обновления OpenSSL до версии 1.1.1q
Python: исправление сбоя при использовании PushAudioInputStream
iOS: исправление "EXC_BAD_ACCESS: попытка разыменования пустого указателя", как указано в iOS (проблема с GitHub)

Пакет SDK для службы "Речь" 1.22.0: выпуск за июнь 2022 г.

новые функции;

Java: Api IntentRecognitionResult для getEntities(), applyLanguageModels(), и recognizeOnceAsync(text), добавленный для поддержки механизма "простого сопоставления шаблонов".
Unity: добавлена поддержка Mac M1 (Apple Silicon) для пакета Unity (сообщение о проблеме на GitHub).
C#: добавлена поддержка архитектур x86 и x64 для Xamarin Android (сообщение о проблеме на GitHub)
C#: для пакета SDK C# минимальная версия .NET Framework обновлена до версии 4.6.2, так как поддержка версии 4.6.1 прекращена (см. статью Политика жизненного цикла компонентов Microsoft .NET Framework).
Linux: добавлена поддержка Debian 11 и Ubuntu 22.04 LTS. Для Ubuntu 22.04 LTS требуется ручная установка libssl1.1 либо в виде двоичного пакета (например, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb или более поздней версии для x64), либо путем компиляции из источников.

Исправления ошибок

UWP: удалена зависимость OpenSSL из библиотек UWP и заменена веб-сокетом WinRT и интерфейсами API HTTP для соответствия требованиям безопасности и уменьшения занимаемой двоичным кодом памяти.
Mac: исправлена проблема "Модуль MicrosoftCognitiveServicesSpeech Not Found" при использовании проектов Swift, предназначенных для платформы macOS
Windows и Mac: исправлена связанная с платформой проблема, из-за которой с источниками звука, настроенными с помощью свойств для потоковой передачи в режиме реального времени, происходила задержка, что в конечном итоге приводило к превышению емкости.

Примеры (GitHub)

C#: примеры для .NET Framework обновлены для использования версии 4.6.2.
Unity: исправлен пример виртуального помощника для Android и UWP.
Unity: примеры для Unity обновлены для использования версии Unity 2020 LTS.

Выпуск пакета SDK для службы "Речь" версии 1.21.0 за апрель 2022 года

новые функции;

Java и JavaScript: добавлена поддержка непрерывной идентификации языка при использовании объекта SpeechRecognizer
JavaScript: добавлены API диагностики для включения уровня ведения журнала консоли и ведения журнала файлов (только для Node ), что поможет корпорации Майкрософт устранять проблемы, о которых сообщают клиенты.
Python: добавлена поддержка транскрибирования бесед.
Go: добавлена поддержка распознавания говорящего.
C++ и C#: добавлена поддержка требуемой группы слов в распознавателье намерений (простое сопоставление шаблонов). Например: "(set|start|begin) a timer" ((настроить|запустить|включить) таймер), где для распознаваемого намерения должно присутствовать значение "set", "start" или "begin".
Все языки программирования, синтез речи: добавлено свойство длительности в событиях границ слов. Добавлена поддержка границ пунктуации и границ предложения.
Objective-C/Swift/Java: добавлены результаты на уровне слов для объекта результата оценки произношения (аналогично C#). Приложению больше не нужно анализировать строку результата JSON для получения сведений на уровне слова (проблема GitHub).
Платформа iOS: добавлена экспериментальная поддержка архитектуры ARMv7.

Исправления ошибок

Платформа iOS: исправлена возможность создания целевого объекта "Любое устройство iOS", при использовании CocoaPod (проблема GitHub)
Платформа Android: версия OpenSSL обновлена до 1.1.1n, благодаря чему устранена уязвимость системы безопасности CVE-2022-0778.
JavaScript: исправлена проблема, из-за которой заголовок wav не был обновлен с размером файла (проблема GitHub)
JavaScript: исправлена проблема десинхронизации идентификатора запроса, нарушающая сценарии перевода (проблема GitHub).
JavaScript: исправлена проблема, возникавшая при создании экземпляра SpeakerAudioDestination без потока (проблема GitHub).
C++: исправление заголовков C++ для удаления предупреждения при компиляции для C++17 или более поздней версии.

Примеры GitHub

Новые примеры Java для распознавания речи с определением языка.
Новые примеры Python и Java для транскрибирования бесед.
Новый пример кода Go для распознавания говорящего.
Новое средство C++ и C# для Windows, которое перечисляет все устройства записи звука и отрисовки для поиска идентификатора устройства. Этот идентификатор необходим пакету SDK службы "Речь", если вы планируете записывать звук с или преобразовывать звук для устройства, отличного от используемого по умолчанию.

Пакет SDK для службы "Речь" 1.20.0: выпуск за январь 2022 г.

новые функции;

Objective-C, Swift и Python. Добавлена поддержка для DialogServiceConnector, используемого для сценариев с голосовым помощником.
Python. Добавлена поддержка для Python 3.10. Поддержка для Python 3.6 была удалена в соответствии с завершением жизненного цикла версии 3.6.
Unity. Теперь для приложений Unity в Linux поддерживается пакет SDK для службы "Речь".
C++, C#. Теперь в C# поддерживается IntentRecognizer с использованием сопоставления шаблонов. Кроме того, в C++ и C# теперь поддерживаются сценарии с пользовательскими сущностями, необязательными группами и ролями сущностей.
C++, C#. Улучшенное ведение журнала трассировки диагностики с помощью новых классов FileLogger, MemoryLogger и EventLogger. Журналы пакета SDK — это важное средство, используемое корпорацией Майкрософт для диагностики проблем, о которых сообщили клиенты. Эти новые классы упрощают интеграцию журналов пакета SDK для службы "Речь" в собственные системы клиентов для ведения журналов.
Все языки программирования. Теперь PronunciationAssessmentConfig имеет свойства для задания требуемого алфавита фонем (IPA или SAPI) и числа N лучших фонем (без необходимости создавать конфигурацию JSON в соответствии с проблемой GitHub 1284). Кроме того, теперь поддерживаются выходные данные на уровне слогов.
Android, iOS и macOS (все языки программирования):GStreamer больше не требуется для поддержки сетей с ограниченной пропускной способностью. SpeechSynthesizer теперь использует возможности декодирования звука операционной системы для декодирования сжатых аудиопотоков из текста в службу речи.
Все языки программирования: теперь SpeechSynthesizer поддерживает три новых формата Opus для необработанных выходных данных (без контейнера), которые широко используются в сценариях прямой трансляции.
JavaScript: в SpeechSynthesizer добавлен API getVoicesAsync() для получения списка поддерживаемых синтезированных голосов (проблема GitHub 1350).
JavaScript: в AudioStreamFormat добавлен API getWaveFormat() для поддержки форматов wave без PCM (проблема GitHub 452).
JavaScript: в SpeakerAudioDestination добавлены API-интерфейсы методов получения или задания и mute()/unmute() (проблема GitHub 463)

Исправления ошибок

C++, C#, Java, JavaScript, Objective-C и Swift: исправление для устранения 10-секундной задержки при остановке распознавателя речи, использующего PushAudioInputStream. Это сделано для случая, когда после вызова функции StopContinuousRecognition не поступают новые звуковые данные (проблемы GitHub 1318, 331)
Unity в Android и UWP: метафайлы Unity были исправлены для UWP, Android ARM64 и подсистемы Windows для Android (WSA) ARM64 (проблема GitHub 1360).
iOS: исправлена компиляция приложения с пакетом SDK для службы "Речь" на любом устройстве iOS при использовании CocoaPods (проблема GitHub 1320)
iOS: когда SpeechSynthesizer настроен для вывода звука непосредственно на динамик, в редких случаях воспроизведение останавливается в самом начале. Эта проблема устранена.
JavaScript: использование резервного обработчика скрипта для ввода с микрофона, если не найден список задач для аудио (проблема GitHub 455)
JavaScript: добавлен протокол в агент для устранения ошибки, обнаруженной при интеграции с версией Sentry (проблема GitHub 465)

Примеры GitHub

В примерах C++, C#, Python и Java показано, как получить подробные результаты распознавания. Сведения включают альтернативные результаты распознавания, оценку достоверности, лексическую форму, нормализованную форму, маскированную нормализованную форму, с хронометражем на уровне слов для каждого из них.
Пример iOS добавлен с использованием AVFoundation в качестве внешнего источника звука.
Пример Java добавлен, чтобы продемонстрировать получение формата SRT (текст в формате SubRip) с помощью события WordBoundary.
Примеры Androidдля оценки произношения.
C++, C#, демонстрирующие использование новых классов ведения журнала диагностики.

Пакет SDK для службы "Речь" 1.19.0: выпуска за ноябрь 2021 г.

Ключевые моменты

Служба "Распознавание говорящего" доступна в виде общедоступной версии. API-интерфейсы пакета SDK для службы "Речь" доступны на языках C++, C#, Java и JavaScript. С помощью Распознавания говорящего можно точно проверять и определять говорящих, используя их уникальные характеристики голоса. Дополнительные сведения об этом разделе см. в документации.
Совместно с Azure DevOps и GitHub мы прекратили поддержку Ubuntu 16.04. Срок действия Ubuntu 16.04 истек в апреле 2021 года. Перенос рабочих процессов Ubuntu 16.04 в Ubuntu 18.04 или более поздней версии.
Компоновка OpenSSL в двоичных файлах Linux изменилась на динамическую. Размер двоичного файла Linux сокращен примерно на 50 %.
Добавлена поддержка Mac M1на основе ARM Silicon.

новые функции;

C++/C#/Java. Добавлены новые API для поддержки обработки звука для речевого ввода с помощью Microsoft Audio Stack. Описана в этом документе.
C++. Новые API для распознавания намерений, упрощающие более сложные сопоставления шаблонов. Сюда входят сущности List и Prebuilt Integer, а также поддержка группирования намерений и сущностей в виде моделей (документация, обновления и примеры находятся в стадии разработки и будут опубликованы в ближайшем будущем).
Mac: поддержка кремния на основе ARM64 (M1) для КакаоПод, Python, Java и NuGet, связанных с проблемой GitHub 1244.
iOS/Mac. Двоичные файлы iOS и macOS теперь упаковываются в XCFramework (проблема GitHub 919).
iOS/Mac. Поддержка для Mac Catalyst (проблема GitHub 1171).
Linux. Добавлен новый пакет TAR для CentOS7 О пакете SDK для службы "Речь". Теперь TAR в Linux содержит специальные библиотеки для RHEL/CentOS 7 в lib/centos7-x64. Библиотеки пакета SDK для службы "Речь" в lib/x64 по прежнему применимы для всех других поддерживаемых дистрибутивов Linux x64 (включая RHEL/CentOS 8) и не будут работать в RHEL/CentOS 7.
JavaScript: VoiceProfile & SpeakerRecognizer API сделал async/awaitable.
JavaScript. Добавлена поддержка для регионов Azure для государственных организаций США.
Windows. Добавлена поддержка для воспроизведения на универсальной платформе Windows (UWP).

Исправления ошибок

Android. Обновление безопасности OpenSSL (обновлено до версии 1.1.1 l) для пакетов Android.
Python. Устранена ошибка, при которой не удается выбрать устройство говорящего в Python.
Core. Автоматическое повторное подключение при неудачной попытке подключения.
iOS. Отключено сжатие звука в пакетах для iOS из-за нестабильности и проблем со сборкой bitcode при использовании GStreamer. Дополнительные сведения: проблема GitHub 1209.

Примеры GitHub

Mac/iOS. Обновленные примеры и краткие руководства по использованию пакета xcframework.
.NET. Примеры обновлены для использования версии .NET Core 3.1.
JavaScript. Добавлен пример для речевых помощников.

Пакет SDK для службы "Речь" 1.18.0. Выпуск за июль 2021 г.

Примечание. Начните работу с пакетом SDK для службы "Речь" здесь.

Краткий обзор

Срок службы Ubuntu 16.04 истек в апреле 2021 года. С помощью Azure DevOps и GitHub мы откажемся от поддержки 16.04 в сентябре 2021 года. Перенос рабочих процессов ubuntu-16.04 в ubuntu-18.04 или более поздней версии до этого.

новые функции;

C++ . Благодаря простому сопоставлению шаблонов языка с распознавателем намерения теперь проще реализовать простые сценарии распознавания намерения.
C++/C#/Java. Мы добавили новый API GetActivationPhrasesAsync() в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
- Важно! Возможность Распознавания говорящего доступна в предварительной версии. Поддержка всех речевых профилей, созданных в предварительной версии, будет прекращена через 90 дней после того, как возможность Распознавания говорящего будет переведена из режима предварительной версии в общую доступность. На этом этапе речевые профили предварительной версии перестанут работать.
Python. Добавлена поддержка непрерывного определения языка для имеющихся объектов SpeechRecognizer и TranslationRecognizer.
Python. Добавлен новый объект Python с именем SourceLanguageRecognizer для однократного или непрерывного определения языка (без распознавания или перевода).
JavaScript. API getActivationPhrasesAsync был добавлен в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
JavaScript. Теперь API enrollProfileAsync в VoiceProfileClient является асинхронным ожидающим. См . этот независимый код идентификации, например использование.

Улучшения

Java. Поддержка AutoCloseable добавлена во многие объекты Java. Теперь модель try-with-resources поддерживается для освобождения ресурсов. См. этот пример с использованием try-with-resources. Дополнительные сведения об этом шаблоне см. в учебнике по Oracle Java для инструкции try-with-resources.
Занимаемая память диска значительно уменьшилась для многих платформ и архитектур. Примеры двоичного файла Microsoft.CognitiveServices.Speech.core: Linux x64 — на 475 КБ меньше (сокращение на 8,0 %), Windows ARM64 UWP — на 464 КБ меньше (сокращение на 11,5 %), Windows x86 — на 343 КБ меньше (сокращение на 17,5 %) и Windows x64 — на 451 КБ меньше (сокращение на 19,4 %).

Исправления ошибок

Java. Исправлена ошибка синтеза, при которой текст синтеза содержит суррогатные символы. Подробные сведения см. здесь.
JavaScript. При обработке аудио с микрофона в браузере теперь используется AudioWorkletNode вместо устаревшего ScriptProcessorNode. Подробные сведения см. здесь.
JavaScript. Правильная поддержка беседы в активном состоянии во время длительных сценариев перевода бесед. Подробные сведения см. здесь.
JavaScript. Исправлена проблема повторного подключения распознавателя к MediaStream при постоянном распознавании. Подробные сведения см. здесь.
JavaScript. Исправлена проблема повторного подключения распознавателя к pushStream при постоянном распознавании. Подробные сведения см. здесь.
JavaScript. Исправлено вычисление смещения на уровне слов в подробных результатах распознавания. Подробные сведения см. здесь.

Примеры

Обновленные примеры краткого руководства для Java см. здесь.
Примеры распознавания говорящего JavaScript обновлены с учетом нового использования enrollProfileAsync(). Примеры см. здесь.

Пакет SDK для службы "Речь" 1.17.0. Выпуск за май 2021 г.

Примечание

Начните работу с пакетом SDK службы "Речь" здесь.

Краткий обзор

Уменьшена занимаемая память. Мы продолжаем уменьшать объем памяти и места на диске, занимаемое пакетом SDK для службы "Речь" и его компонентами.
Новый автономный API идентификации языка позволяет узнать, на каком языке говорят.
С помощью Unity в macOS разработанные речевые модели внедрены в приложения смешанной реальности и игровые приложения.
Теперь вы можете использовать текст для речи в дополнение к распознаванию речи на языке программирования Go.
Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.

новые функции;

C++/C#: новое автономное на момент начала и непрерывное распознавание языка посредством API SourceLanguageRecognizer. Определить языки аудио содержимого можно с помощью API. См. дополнительные сведения о C++ и C#.
C++/C#: распознавание речи и распознавание перевода теперь поддерживают как при запуске, так и непрерывную идентификацию языка, чтобы программно определить, какие языки говорятся перед их транскрибированием или переводом. См. документацию по распознаванию речи здесь и по переводу речи здесь.
C#: добавлена поддержка Unity в macOS (x64). Это разблокирует случаи использования распознавания и синтеза речи в смешанной реальности и играх!
Go: Мы добавили поддержку синтеза речи для речи на языке программирования Go, чтобы сделать синтез речи доступным в еще большем случае. Ознакомьтесь с кратким руководством или справочной документацией.
C++/C#/Java/Python/Objective-C/Go: синтезатор речи теперь поддерживает объект connection. Он помогает отслеживать подключение к службе "Речь" и управлять им, а также рекомендуется для предварительного подключения в целях сокращения задержки. См. документацию здесь.
C++/C#/Java/Python/Objective-C/Go: теперь в SpeechSynthesisResultстало доступным время задержки и опустошения, применяемое для отслеживания и диагностики проблем с задержкой синтеза речи. Дополнительные сведения по C++, C#, Java, Python, Objective-C и Go.
C++/C#/Java/Python/Objective-C: текст для речи теперь использует нейронные голоса по умолчанию, если не указать используемый голос. По умолчанию это дает более точный результат, но также увеличивает цену по умолчанию. Вы можете указать любой из наших более 70 стандартных голосов или более 130 нейронных голосов, чтобы изменить голос по умолчанию.
C++/C#/Java/Python/Objective-C/Go: к информации о синтезе голоса добавлено свойство "Пол", чтобы упростить выбор голоса на основе пола. Это решает проблему GitHub #1055.
C++, C#, Java, JavaScript: в распознавании говорящего теперь поддерживается retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync и getAllProfilesAsync() для упрощения управления всеми голосовыми профилями конкретной учетной записи. См. документацию по C++, C#, Java, JavaScript. Это решает проблему GitHub #338.
JavaScript: мы добавили повторную попытку при сбоях подключения, что сделает приложения речи на основе JavaScript более надежными.

Улучшения

Двоичные файлы Linux и Android пакета SDK для службы обновлены для использования последней версии OpenSSL (1.1.1 k)
Улучшения размера кода:
- Распознавание речи теперь разбивается на отдельную библиотеку "lu".
- Основной двоичный файл для Windows x64 уменьшился на 14,4 %.
- Бинарный размер ядра Android ARM64 уменьшился на 13,7%.
- размер других компонентов также уменьшился.

Исправления ошибок

Все: исправлена ошибка GitHub #842, связанные с параметром ServiceTimeout. Теперь вы можете транскрибировать длинные звуковые файлы с помощью пакета SDK службы "Речь" без подключения к службе, завершающейся этой ошибкой. Однако для длинных файлов по-прежнему рекомендуется использовать пакетное транскрибирование.
C# : исправлена ошибка GitHub #947, при которой речевой ввод не может привести к некорректному состоянию приложения.
Java: исправлена ошибка GitHub № 997, из-за которой пакет SDK Речи для Java 1.16 с Java аварийно завершал работу при использовании параметра DialogServiceConnector без сетевого подключения или недопустимого ключа подписки.
Исправлено аварийное завершение при внезапной остановке операции распознавания речи (например, с помощью клавиш CTRL+C в консольном приложении).
Java: добавлено исправление для удаления временных файлов в Windows при использовании пакета SDK Речи для Java.
Java: исправлена ошибка GitHub #994, при которой вызов DialogServiceConnector.stopListeningAsync может привести к ошибке.
Java: исправлена проблема с клиентом в кратком руководстве по виртуальному помощнику.
JavaScript: Исправлена проблема GitHub #366 , из-за ConversationTranslator которой возникла ошибка "this.cancelSpeech не является функцией".
JavaScript: исправлена ошибка GitHub #298, когда в примере "Получить результат как поток в памяти" воспроизводился звук.
JavaScript: исправлена проблема GitHub #350 , при которой вызов AudioConfig может привести к ошибке ReferenceError: MediaStream не определен.
JavaScript: исправлено предупреждение UnhandledPromiseRejection в Node.js для длительных сеансов.

Примеры

Обновленная документация с примерами Unity для macOS представлена здесь.
Пример React Native для службы распознавания речи искусственного интеллекта Azure теперь доступен здесь.

Пакет SDK для службы "Речь" 1.16.0. Выпуск за март 2021 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.

новые функции;

C++/C#/Java/Python: перенесено в новейшую версию GStreamer (1.18.3), чтобы добавить поддержку транскрибирования любого формата мультимедиа в Windows, Linux и Android. См. документацию здесь.
C++/C#/Java/Objective-C/Python: в пакет SDK добавлена поддержка декодирования сжатого TTS/синтезированного звука. Если задан выходной звуковой формат PCM, и GStreamer доступен в системе, пакет SDK будет автоматически запрашивать сжатый звук из службы, чтобы сэкономить пропускную способность и декодировать звук в клиенте. Чтобы отключить эту функцию, задайте для параметра SpeechServiceConnection_SynthEnableCompressedAudioTransmission значение false. Сведения для C++, C#, Java, Objective-C, Python.
JavaScript: пользователи Node.js теперь могут использовать AudioConfig.fromWavFileInput API. Это решает проблему GitHub #252.
C++/C#/Java/Objective-C/Python: добавлен метод GetVoicesAsync() для TTS, для возврата всех доступных голосов синтеза. Сведения для C++, C#, Java, Objective-C и Python.
C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие VisemeReceived для TTS/синтеза речи, для возврата синхронной анимации висеме. См. документацию здесь.
C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие BookmarkReached для TTS. Можно задать закладки во входном SSML и сформировать смещения звука для каждой закладки. См. документацию здесь.
Java: добавлена поддержка для API распознавания говорящего. Подробные сведения см. здесь.
C++/C#/Java/JavaScript/Objective-C/Python: добавлены два новых выходных звуковых формата с контейнером WebM для TTS (Webm16Khz16BitMonoOpus и Webm24Khz16BitMonoOpus). Это более эффективные форматы для потоковой передачи звука с использованием кодека Opus. Сведения для C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: добавлена поддержка извлечения голосового профиля для сценария распознавания говорящего. Сведения для C++, C# и Java.
C++/C#/Java/Objective-C/Python: добавлена поддержка отдельной общедоступной библиотеки для управления звуковым микрофоном и динамиком. Это позволяет разработчику использовать пакет SDK в средах, которые не имеют необходимых зависимостей аудио библиотеки.
Objective-C/Swift: добавлена поддержка платформы модулей с зонтичным заголовком. Это дает возможность разработчику импортировать Пакет SDK для службы "Речь" как модуль в приложениях iOS/Mac Objective-C/Swift. Это решает проблему GitHub #452.
Python: добавлена поддержка для Python 3.9 и удалена поддержка для Python 3.5 в конце жизненного цикла Python 3.5.

Известные проблемы

C++/C#/Java: DialogServiceConnector не может использовать CustomCommandsConfig приложение пользовательских команд и вместо этого столкнется с ошибкой подключения. Этого можно избежать, вручную добавив в запрос идентификатор приложения с помощью config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Ожидаемое поведение CustomCommandsConfig будет восстановлено в следующем выпуске.

Улучшения

В рамках работ, охватывающих несколько выпусков, которые призваны сократить использование памяти и дискового пространства пакетом SDK для службы "Речь", размер двоичных файлов Android уменьшен на 3–5 %.
Улучшены точность, читаемость и содержащие ссылки разделы справочной документации по C#, которая доступна здесь.

Исправления ошибок

JavaScript: теперь для больших заголовков файлов WAV выполняется корректный синтаксический анализ (срез заголовка увеличен до 512 байт). Это решает проблему GitHub #962.
JavaScript: устранена ошибка синхронизации микрофона, возникавшая, если микрофонный поток заканчивался до прекращения распознавания. Это решает проблему с неработающим распознаванием речи в браузере Firefox.
JavaScript: обеспечена корректная обработка обещания инициализации в ситуациях, когда браузер принудительно отключает микрофон до завершения включения.
JavaScript: зависимость URL-адреса заменена синтаксическим разбором. Это решает проблему GitHub #264.
Android: устранена ошибка обратных вызовов, которые не работали, если для параметра minifyEnabled было задано значение True.
C++/C#/Java/Objective-C/Python: TCP_NODELAY будет корректно настраиваться на базовый сокет ввода-вывода TTS для сокращения задержки.
C++/C#/Java/Python/Objective-C/Go: устранен случайный сбой, при котором распознаватель уничтожался сразу после начала распознавания.
C++/C#/Java: устранен случайный сбой с уничтожением распознавателя говорящего.

Примеры

JavaScript: для примеров браузера впредь не требуется отдельная загрузка файла библиотеки JavaScript.

Пакет SDK для службы "Речь" 1.15.0: Выпуск за январь 2021 г.

Примечание

Краткий обзор

Сокращение требуемого объема памяти и места на диске делает пакет SDK более эффективным.
Для закрытой предварительной версии Пользовательского нейронного голоса доступны усовершенствованные форматы вывода.
Распознаватель намерения теперь способен возвращать более детализированные намерения. Это дает возможность выполнять отдельную оценку намерения клиента.
Голосовые помощники и боты теперь проще в настройке; можно немедленно прекращать прослушивание и четче контролировать реакцию на ошибки.
Сжатие стало необязательным, благодаря чему повысилась производительность устройств.
Используйте пакет SDK для службы "Речь" в Windows ARM/ARM64.
Усовершенствована отладка на низком уровне.
Функция оценки произношения стала более широкодоступной.
Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.

Улучшения

Пакет SDK для службы "Речь" стал более эффективным и компактным. Мы начали работу, охватывающую несколько выпусков, чтобы сократить потребность пакета SDK для службы "Речь" в памяти и дисковом пространстве. В качестве первого шага мы значительно сократили размер файлов в общедоступных библиотеках на большинстве платформ. По сравнению с выпуском 1.14:
- библиотеки Windows, совместимые с 64-bit UWP, меньше по размеру примерно на 30 %;
- 32-разрядные библиотеки Windows пока не видят улучшения размера.
- библиотеки Linux меньше по размеру на 20–25 %;
- библиотеки Android меньше по размеру на 3–5 %.

новые функции;

Все: новые форматы выходных данных 48 КГц, доступные для частной предварительной версии пользовательского нейронного голоса через API синтеза речи TTS: Audio48Khz192 КБ itRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96 КБ itRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Все: пользовательский голос также стал проще в использовании. Добавлена поддержка настройки пользовательского голоса через EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Перед внесением этого изменения пользователям пользовательского голоса требовалось задавать URL-адрес конечной точки, используя метод FromEndpoint. Теперь клиенты могут использовать метод FromSubscription так же, как предварительно созданные голоса, и указывать идентификатор развертывания, задавая параметр EndpointId. Это упрощает настройку пользовательских голосов.
C++/C#/Java/Objective-C/Python: получение из IntentRecognizer не только информации об общем намерении. Теперь поддерживается настройка результата JSON, содержащего все намерения, а не только намерение с самой высокой оценкой, посредством метода LanguageUnderstandingModel FromEndpoint, с помощью параметра URI verbose=true. Это решает проблему GitHub #880. См. обновленную документацию здесь.
C++/C#/Java: команда немедленно прерывать прослушивание для голосового помощника или бота. В DialogServiceConnector (C++, C#, Java) теперь имеется метод StopListeningAsync() в дополнение к ListenOnceAsync(). Это действие будет немедленно останавливать захват аудио и корректно дожидаться результата, благодаря чему оно идеально подходит для использования с нажатием кнопки "Остановить сейчас".
C++/C#/Java/JavaScript: более четкая реакция голосового помощника или бота на базовые системные ошибки. В DialogServiceConnector (C++, C#, Java, JavaScript) теперь имеется новый обработчик событий TurnStatusReceived. Эти необязательные события соответствуют каждому разрешению ITurnContext в боте и будут сообщать о сбоях при выполнении, например в результате необработанного исключения, истечения времени ожидания или сетевого сброса между Direct Line Speech и ботом. TurnStatusReceived упрощает реагирование на условия сбоя. Например, если бот отнимает слишком много времени в запросе серверной базы данных (например, при поиске продукта), с помощью TurnStatusReceived клиент может узнать о необходимости повторного запроса, получив примерно такое сообщение: "Простите, информация не вполне ясна, не могли бы вы повторить".
C++/C# : использование Пакета SDK для службы "Речь" на большем количестве платформ. Пакет Speech SDK NuGet теперь поддерживает собственные двоичные файлы Windows ARM/ARM64 Desktop (UWP уже поддерживался ранее), благодаря чему Пакет SDK для службы "Речь" можно эффективнее использовать на большем количестве типов компьютеров.
Java: в DialogServiceConnector теперь имеется метод setSpeechActivityTemplate(), непреднамеренно исключенный из языка ранее. Это эквивалентно заданию свойства Conversation_Speech_Activity_Template и будет запрашивать, чтобы все будущие действия Bot Framework, инициированные службой Direct Line Speech, объединяли предоставляемое содержимое в своих полезных данных JSON.
Java: усовершенствована отладка на низком уровне. В классе Connection теперь есть событие MessageReceived, аналогичное другим языкам программирования (C++, C#). Это событие обеспечивает низкоуровневый доступ к входящим данным от службы и может быть полезно для целей диагностики и отладки.
JavaScript: упрощена настройка Голосовых помощников и ботов с помощью BotFrameworkConfig, где теперь имеются фабричные методы fromHost() и fromEndpoint(), упрощающие использование обнаружения пользовательских служб в сравнении с настройкой свойств вручную. Также стандартизована необязательная спецификация botId для использования бота, отличного от используемого по умолчанию, между фабриками конфигурации.
JavaScript: повышена производительность на устройствах за счет добавления свойства контроля строки для сжатия WebSocket. Исходя из соображений производительности, мы отключили сжатие WebSocket по умолчанию. Его можно снова включать для сценариев с низкой пропускной способностью. Дополнительные сведения см. здесь. Это решает проблему GitHub #242.
JavaScript: добавлена поддержка оценки произношения, что дает возможность оценить произношение в речи. См. краткое руководство здесь.

Исправления ошибок

Все (кроме JavaScript): исправлена регрессия в версии 1.14, вследствие которой распознаватель выделял слишком много ресурсов памяти.
C++ : исправлена ошибка сборки мусора, связанная с DialogServiceConnector, что устраняет проблему GitHub #794.
C# : исправлена проблема с завершением работы потока, из-за которой объекты блокировались примерно на секунду при удалении.
C++/C#/Java: исправлено исключение, из-за которого приложению не удавалось задать маркер авторизации речи или шаблон действия более одного раза в DialogServiceConnector.
C++/C#/Java: устранен сбой распознавателя из-за состояния гонки в деинициализации.
JavaScript: DialogServiceConnector ранее не учитывал необязательный параметр botId, указанный в фабриках BotFrameworkConfig. Из-за этого требовалось задавать параметр строки запроса botId вручную для использования бота, отличного от используемого по умолчанию. Ошибка исправлена, и значения botId, предоставленные фабрикам BotFrameworkConfig, будут учитываться и использоваться, включая новые добавления fromHost() и fromEndpoint(). Это также относится к параметру applicationId для CustomCommandsConfig.
JavaScript: устранена проблема 881 в GitHub, что дает возможность повторно использовать объект распознавателя.
JavaScript: устранена проблема, вследствие которой SKD отправлял speech.config несколько раз в одном сеансе TTS, что приводило к непродуктивному расходу пропускной способности.
JavaScript: упрощенная обработка ошибок при авторизации микрофона, что позволяет более описательное сообщение пузыриться, когда пользователь не разрешил входные данные микрофона в браузере.
JavaScript: исправлена ошибка GitHub #249, вследствие которой ошибки в ConversationTranslator и ConversationTranscriber вызывали ошибку компиляции для пользователей TypeScript.
Objective-C: устранена проблема, вследствие которой происходил сбой сборки GStreamer для iOS в Xcode 11.4, что устраняет проблему GitHub #911.
Python: устранена проблема GitHub #870, благодаря чему удалено сообщение "DeprecationWarning: the imp module is deprecated in favor of importlib".

примеры

В примере из файла для браузера JavaScript теперь используются файлы для распознавания речи. Это решает проблему GitHub #884.

Пакет SDK для службы "Речь" 1.14.0. Выпуск за октябрь 2020 г.

Примечание

новые функции;

Linux: добавлена поддержка Debian 10 и Ubuntu 20.04 LTS.
Python/Objective-C: добавлена поддержка API KeywordRecognizer. Документация будет доступна здесь.
C++/Java/C# : добавлена поддержка задания любых ключей/значений HttpHeader через ServicePropertyChannel::HttpHeader.
JavaScript: добавлена поддержка API ConversationTranscriber. Изучите документацию здесь.
C++/C# : добавлен новый метод AudioDataStream FromWavFileInput (для чтения файлов .WAV), доступный здесь (C++) и здесь (C#).
C++/C#/Java/Python/Objective-C/Swift: добавлен stopSpeakingAsync() метод для остановки синтеза текста в речь. См. справочную документацию здесь (C++), здесь (C#), здесь (Java), здесь (Python) и здесь (Objective-C/Swift).
C#, C++, Java: добавлена функция FromDialogServiceConnector() в классе Connection, которой можно пользоваться в целях мониторинга событий подключения и отключения для DialogServiceConnector. См. справочную документацию здесь (C#), здесь (C++) и здесь (Java).
C++/C#/Java/Python/Objective-C/Swift: добавлена поддержка функции оценки произношения, которая оценивает произношение и дает отзыв о точности и плавности речи говорящего. Изучите документацию здесь.

Критическое изменение

JavaScript: для PullAudioOutputStream.read() тип возвращаемого значения изменен с внутреннего обещания на собственное обещание JavaScript.

Исправления ошибок

Все: исправлена регрессия 1.13 в SetServiceProperty, вследствие которой игнорировались значения с определенными специальными символами.
C# : исправлены примеры консоли Windows в Visual Studio 2019, в которых возникал сбой нахождения собственных библиотек DLL.
C# : устранен сбой в управлении памятью, который возникал, если поток использовался в качестве входных данных KeywordRecognizer.
ObjectiveC/Swift: устранен сбой в управлении памятью, возникавший, если поток использовался в качестве входных данных распознавателя.
Windows: устранена проблема сосуществования с BT HFP/A2DP на UWP.
JavaScript: скорректировано сопоставление идентификаторов сеансов для оптимизации ведения журналов и поддержки внутренних корреляций отладки/служб.
JavaScript: добавлено исправление для DialogServiceConnector, отключающее вызовы ListenOnce после первого вызова.
JavaScript: устранена проблема, вследствие которой выходной результат мог иметь только формат Simple.
JavaScript: исправлена проблема непрерывного распознавания в Safari на macOS.
JavaScript: выполнена миграция нагрузки ЦП для сценария с высокой пропускной способностью запросов.
JavaScript: разрешен доступ к сведениям о результатах регистрации речевого профиля.
JavaScript: добавлено исправление для непрерывного распознавания в IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: исправлен некорректный URL-адрес для australiaeast и brazilsouth в IntentRecognizer.
C++/C# : VoiceProfileType добавлен в качестве аргумента при создании объекта VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: исправлен потенциальный SPX_INVALID_ARG при попытке считывания AudioDataStream из заданной позиции.
IOS: исправлен сбой при распознавании речи в Unity

примеры

ObjectiveC: добавлен пример распознавания ключевого слова, доступный здесь.
C#/JavaScript: добавлено краткое руководство по транскрибированию бесед, доступное здесь (C#) и здесь (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: добавлен пример оценки произношения, доступный здесь
Xamarin: краткое руководство обновлено до новейшего шаблона Visual Studio и доступно здесь.

Известная проблема

Сертификат DigiCert Global Root G2 не поддерживается по умолчанию в HoloLens 2 и Android 4.4 (KitKat) и должен быть добавлен в систему, чтобы пакет SDK для службы "Речь" функционировал. Сертификат будет добавлен в образы ОС HoloLens 2 уже в ближайшем будущем. Клиентам Android 4.4 необходимо добавить обновленный сертификат в систему.

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.13.0. Выпуск за июль 2020 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Скачайте и установите приложение отсюда.

новые функции;

C# : добавлена поддержка асинхронного транскрибирования бесед. См. документацию здесь.
JavaScript: включена поддержка распознавания говорящего для браузера и Node.js.
JavaScript: добавлена поддержка функции идентификации языка и идентификатора языка. См. документацию здесь.
Objective-C: добавлена поддержка беседы с несколькими устройствами и транскрибирования бесед.
Python: добавлена поддержка сжатого звука для Python в Windows и Linux. См. документацию здесь.

Исправления ошибок

Все: исправлена проблема, вследствие которой KeywordRecognizer не перенаправлял потоки после распознавания.
Все: исправлена проблема, из-за которой поток, полученный из KeywordRecognitionResult, не содержал ключевое слово.
Все. Исправлена проблема, из-за которой sendMessageAsync не отправлял сообщение по проводу после того, как пользователи завершат ожидание.
Все: устранен сбой в API распознавания говорящего, который возникал, когда пользователи вызывали метод VoiceProfileClient:SpeakerRecEnrollProfileAsync несколько раз и не дожидались завершения вызовов.
Все: исправлено разрешение на ведение журнала файлов в классах VoiceProfileClient и SpeakerRecognizer.
JavaScript: устранена проблема с регулированием полосы пропускания при сворачивании браузера.
JavaScript: устранена проблема с утечкой памяти в потоках.
JavaScript: добавлено кэширование для ответов OCSP из NodeJS.
Java: устранена проблема, приводившая к тому, что поля BigInteger всегда возвращали 0.
iOS: исправлена проблема с публикацией приложений на основе Пакета SDK для службы "Речь" в магазине приложений iOS.

примеры

C++ : добавлен пример кода для распознавания говорящего, который доступен здесь.

Усеченное тестирование в связи с COVID-19

Пакет SDK для службы "Речь" 1.12.1. Выпуск за июнь 2020 г.

новые функции;

C#, C++: предварительная версия Распознавания говорящего. Эта функция включает идентификацию говорящего (кто говорит?) и проверку говорящего (является ли он тем, кем себя называет?). Начните с обзора, прочитайте статью с общим описанием Распознавания говорящего или справочную документацию по API.

Исправления ошибок

C#, C++: фиксированная запись микрофона не работала в версии 1.12 в распознавании говорящего.
JavaScript: исправление речи текста в Firefox и Safari в macOS и iOS.
Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при транскрибировании бесед с использованием восьмиканального потока.
Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при переводе бесед на нескольких устройствах.

примеры

C#: пример кода для Распознавания говорящего.
C++: пример кода для Распознавания говорящего.
Java: пример кода для распознавания намерений в Android.

Усеченное тестирование в связи с COVID-19

Пакет SDK для службы "Речь" 1.12.0. Выпуск за май 2020 г.

новые функции;

Go: новая языковая поддержка Go для распознавания речи и пользовательского голосового помощника. Настройте среду разработки здесь. Пример кода см. в разделе примеров ниже.
JavaScript: добавлена поддержка браузера для преобразования текста в речь. См. документацию здесь.
C++, C#, Java: новый объект KeywordRecognizer и API, поддерживаются на платформах Windows, Android, Linux и iOS. Изучите документацию здесь. Пример кода см. в разделе примеров ниже.
Java: добавлена беседа с участием нескольких устройств с поддержкой перевода. См. справочную документацию здесь.

Улучшения и оптимизации

JavaScript. оптимизирована реализация микрофона браузера, благодаря чему улучшается точность распознавания речи.
Java: выполнен рефакторинг привязок с использованием прямой реализации JNI без SWIG. Это изменение в 10 раз сокращает размер привязок для всех пакетов Java, используемых для Windows, Android, Linux и Mac, и упрощает дальнейшую разработку реализации Пакета SDK для службы "Речь" в Java.
Linux: обновлена документация поддержки, в нее включены новейшие комментарии к RHEL 7.
Улучшена логика подключения для многократных попыток подключения при возникновении ошибок в службе и сети.
Обновлена страница краткого руководства по portal.azure.com распознаванию речи, чтобы помочь разработчикам выполнить следующий шаг в пути распознавания речи искусственного интеллекта Azure.

Исправления ошибок

C#, Java: устранена проблема с загрузкой библиотек SDK на ARM Linux (в обоих вариантах: 32 bit и 64 bit).
C#: скорректирована проблема явного удаления собственных дескрипторов для объектов TranslationRecognizer, IntentRecognizer и Connection.
C# : скорректировано управление временем существования звукового ввода для объекта ConversationTranscriber.
Исправлена проблема, из-за IntentRecognizer которой причина результата не была задана должным образом при распознавании намерений из простых фраз.
Исправлена проблема, из-за которой SpeechRecognitionEventArgs смещение результата не было задано правильно.
Исправлено состояние гонки, в котором пакет SDK пытался отправить сетевое сообщение до открытия подключения WebSocket. Воспроизводилось для TranslationRecognizer во время добавления участников.
Скорректированы утечки памяти в подсистеме распознавателя ключевых слов.

примеры

Go: добавлены краткие руководства для распознавания речи и пользовательского голосового помощника. Пример кода можно найти здесь.
JavaScript: добавлены краткие руководства по распознаванию речи, перевода и намерения.
Примеры распознавания ключевых слов для C# и Java (Android).

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. Если мы пропустили что-нибудь, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.11.0. Выпуск за март 2020 г.

новые функции;

Linux: добавлена поддержка Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 с инструкциями по настройке системы для Пакета SDK для службы "Речь".
Linux: добавлена поддержка .NET Core C# в Linux ARM32 и ARM64. Дополнительные сведения см. здесь.
C#, C++: добавлен UtteranceId в ConversationTranscriptionResult, единообразный идентификатор для всех промежуточных и конечных результатов распознавания речи. Подробная информация для C#, C++.
Python: добавлена поддержка для Language ID. См. speech_sample.py в репозитории GitHub.
Windows: добавлена поддержка сжатого формата звукового ввода на платформе Windows для всех консольных приложений Win32. Подробные сведения см. здесь.
JavaScript: поддержка синтеза речи (текста в речь) в NodeJS. Дополнительные сведения см. здесь.
JavaScript: добавлены новые API для возможности проверки всех отправленных и полученных сообщений. Дополнительные сведения см. здесь.

Исправления ошибок

C#, C++: исправлена проблема, благодаря чему SendMessageAsync теперь отправляет двоичное сообщение в двоичном формате. Подробная информация для C#, C++.
C#, C++: исправлена проблема, из-за которой использование события Connection MessageReceived могло вызвать сбой, если Recognizer удалялось до объекта Connection. Подробная информация для C#, C++.
Android: размер буфера аудиоданных с микрофона уменьшен с 800 до 100 мс для оптимизации задержки.
Android: исправлена проблема с эмулятором Android для x86 в Android Studio.
JavaScript: добавлена поддержка регионов в Китае с API fromSubscription. Подробные сведения см. здесь.
JavaScript: добавлены дополнительные сведения об ошибках, касающиеся сбоев подключения из NodeJS.

примеры

Unity: исправлен общедоступный пример распознавания намерений, в котором возникал сбой импорта LUIS json. Подробные сведения см. здесь.
Python: добавлен пример для Language ID. Подробные сведения см. здесь.

Усеченное тестирование в связи с COVID-19. Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования на устройствах вручную. Например, нам не удалось протестировать входные данные микрофона и выходные данные динамика в Linux, iOS и macOS. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою на этих платформах, а все наши автоматические тесты прошли успешно. В маловероятном случае, что мы пропустили что-то, дайте нам знать на GitHub.
Благодарим вас за постоянную поддержку. Пожалуйста, направляйте вопросы и отзывы в GitHub или Stack Overflow.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.10.0. Выпуск за февраль 2020 г.

новые функции;

Добавлены пакеты Python для поддержки нового выпуска Python 3.8.
Поддержка Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Примечание

Клиенты должны настраивать OpenSSL в соответствии с этими инструкциями.
Поддержка Debian и Ubuntu в Linux ARM32.
DialogServiceConnector теперь поддерживает необязательный параметр "Идентификатор бота" в BotFrameworkConfig. Этот параметр позволяет использовать несколько ботов прямой речи с одним ресурсом службы "Речь". Если параметр не указан, будет использоваться бот, выбираемый по умолчанию (как определено на странице конфигурации канала Direct Line Speech).
В DialogServiceConnector теперь имеется свойство SpeechActivityTemplate. Содержимое этой строки JSON будет использоваться в Direct Line Speech для предварительного заполнения различных поддерживаемых полей при всех действиях, которые связываются с ботом Direct Line Speech, включая действия, автоматически генерируемые в ответ на события, например распознавание речи.
Теперь функция TTS использует для аутентификации ключ подписки, уменьшая задержку первого байта в первом результате синтеза после создания синтезатора.
Обновлены модели распознавания речи для 19 языковых стандартов, при этом средняя частота ошибок в словах сократилась на 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Новые модели обеспечивают значительные улучшения в различных аспектах, включая транскрибирование звонков центра обработки вызовов и сценарии индексирования видео.

Исправления ошибок

Исправлена ошибка, из-за которой у Conversation Transcriber отсутствовало корректное ожидание в API JAVA.
Исправлена ошибка эмулятора Android x86, которая создавала для Xamarin проблему GitHub.
В AudioConfig добавлены отсутствующие методы (Get|Set)Property.
Исправлена ошибка TTS, вследствие которой не удавалось остановить audioDataStream в случае сбоя подключения.
Использование конечной точки без региона вызвало сбои USP в трансляторе беседы.
При генерировании идентификаторов в универсальных приложениях Windows теперь используется алгоритм GUID с корректной уникальностью; ранее он непреднамеренно использовал по умолчанию суррогатную реализацию, которая часто создавала конфликты в больших наборах взаимодействий.

примеры

Пример Unity: использование Пакета SDK для службы "Речь" с потоковой передачей данных микрофона и режима принудительной отправки

Другие изменения

Документация по конфигурации OpenSSL обновлена для Linux

Пакет SDK для службы "Речь" 1.9.0. Выпуск за январь 2020 г.

новые функции;

Беседы с использованием нескольких устройств: подключение нескольких устройств к одной речевой или текстовой беседе и, при необходимости, перевод передаваемых между ними сообщений. Дополнительные сведения см. в этой статье.
Добавлены поддержка распознавания ключевых слов для пакета Android .aar и поддержка для вариантов x86 и x64.
Objective-C: методы SendMessage и SetMessageProperty добавлены в объект Connection. См. документацию здесь.
API TTS C++ теперь поддерживает std::wstring в качестве текстового ввода для синтеза, что устраняет необходимость преобразовывать wstring в строку перед ее передачей в пакет SDK. Дополнительные сведения см. здесь.
C#: стали доступны идентификатор языка и настройка языка исходного кода.
JavaScript: в объект Connection добавлена функция передачи пользовательских сообщений из службы "Речь" в формате обратного вызова receivedServiceMessage.
JavaScript: добавлена поддержка FromHost API упрощения использования с локальными контейнерами и суверенными облаками. См. документацию здесь.
JavaScript: теперь мы учитываем NODE_TLS_REJECT_UNAUTHORIZED благодаря вкладу orgads. Дополнительные сведения см. здесь.

Критические изменения

OpenSSL обновлен до версии 1.1.1b и статически привязан к основной библиотеке пакета SDK для службы "Речь" для Linux. Это может привести к разрыву, если папка "Входящие OpenSSL " не была установлена в /usr/lib/ssl каталоге в системе. Ознакомьтесь с нашей документацией в документации по пакету SDK службы "Речь", чтобы обойти проблему.
Изменен тип данных, возвращаемых для C# WordLevelTimingResult.Offset с int на long, чтобы разрешить доступ к WordLevelTimingResults когда речевые данные имеют длительность больше 2 минут.
PushAudioInputStream и PullAudioInputStream теперь отправляют данные заголовка WAV в службу "Речь" на основе AudioStreamFormat, дополнительно задаваемого при их создании. Впредь клиенты должны использовать поддерживаемый входной формат аудио. Любые другие форматы будут выдавать неоптимальные результаты распознавания или могут вызвать другие проблемы.

Исправления ошибок

См. обновление OpenSSL выше, в разделе “Критические изменения”. Исправлены сбои временного характера и проблемы с производительностью (конфликт при блокировках в состоянии высокой нагрузки) в Linux и Java.
Java: оптимизировано замыкание объектов в сценариях с высоким уровнем параллелизма.
Реструктуризован пакет NuGet. Удалены три копии Microsoft.CognitiveServices.Speech.core.dll и Microsoft.CognitiveServices.Speech.extension.kws.dll в папках lib, благодаря чему пакет NuGet стал меньше по размеру и быстрее скачивается, и добавлены заголовки, необходимые для компиляции ряда собственных приложений C++.
Исправлены примеры из краткого руководства, доступные здесь. Это был выход без отображения исключения "Микрофон не найден" в Linux, macOS, Windows.
Исправлен сбой пакета SDK, связанный с результатами распознавания длительной речи на некоторых путях к коду, как в этом примере.
Исправлена ошибка развертывания пакета SDK в рабочей среде Azure Web App для решения этой проблемы клиента.
Исправлена ошибка TTS при использовании нескольких тегов <voice> или <audio> для решения этой проблемы клиента.
Исправлена ошибка TTS 401, возникавшая при восстановлении пакета SDK из приостановленного состояния.
JavaScript: исправлен циклический импорт звуковых данных благодаря вкладу euirim.
JavaScript: добавлена поддержка настройки свойств службы, добавленных в 1.7.
JavaScript: устранена проблема, из-за которой ошибка подключения могла приводить к возникновению непрерывных неудачных попыток повторного подключения WebSocket.

примеры

Добавлен пример распознавания ключевых слов для Android, доступный здесь.
Добавлен пример TTS для серверного сценария, доступный здесь.
Добавлены краткие руководства по беседам с нескольких устройств для C# и C++, доступные здесь.

Другие изменения

Оптимизирован размер базовой библиотеки SDK на Android.
Пакет SDK в 1.9.0 и последующих версиях поддерживает типы int и string в поле версии голосовой подписи для инструмента транскрибирования бесед.

Пакет SDK для службы "Речь" 1.8.0. Выпуск за ноябрь 2019 г.

новые функции;

Добавлен FromHost() API для упрощения использования с локальными контейнерами и независимыми облаками.
Добавлена идентификация исходного языка для распознавания речи (в Java и C ++)
Добавлен объект SourceLanguageConfig для распознавания речи, используемый для задания ожидаемых исходных языков (в Java и C++).
Добавлена поддержка KeywordRecognizer в Windows (UWP), Android и iOS через пакеты NuGet и Unity
Добавлен API удаленной беседы в Java для транскрибирования бесед в асинхронных пакетах.

Критические изменения

Функционал инструмента транскрибирования бесед перенесен в пространство имен Microsoft.CognitiveServices.Speech.Transcription.
Части методов инструмента транскрибирования бесед перенесены в новый класс Conversation.
Удалена поддержка 32-bit (ARMv7 и x86) iOS

Исправления ошибок

Исправлен сбой, возникавший, если локальная KeywordRecognizer использовалась без допустимого ключа подписки на Службу речи

примеры

Пример Xamarin для KeywordRecognizer
Пример Unity для KeywordRecognizer
Примеры C++ и Java для автоматической идентификации исходного языка.

Пакет SDK для службы "Речь" 1.7.0. Выпуск за сентябрь 2019 г.

новые функции;

Добавлена поддержка бета-версии для Xamarin на универсальной платформе Windows (UWP), Android и iOS.
Добавлена поддержка iOS для Unity
Добавлена поддержка ввода Compressed для ALaw, Mulaw, FLAC в Android, iOS и Linux
Добавлено SendMessageAsync в классе Connection для отправки сообщения в службу.
Добавлено SetMessageProperty в классе Connection для задания свойства сообщения
В TTS добавлены привязки для Java (JRE и Android), Python, Swift и Objective-C.
В TTS добавлена поддержка воспроизведения для macOS, iOS и Android.
Добавлены сведения о границах слов для TTS.

Исправления ошибок

Исправлена проблема сборки IL2CPP в Unity 2019 для Android.
Исправлена ошибка некорректной обработки неправильно сформированных заголовков во входных файлах WAV.
Устранена проблема с UUID, которые не были уникальны в некоторых свойствах подключения.
Исправлены несколько предупреждений о спецификаторах допустимости значений NULL в привязках Swift (могут потребоваться небольшие изменения в коде).
Исправлена ошибка, которая приводила к некорректному закрытию подключений WebSocket при сетевой нагрузке.
Исправлена проблема с Android, которая время от времени приводила к дублированию идентификаторов воссоздания, используемых в DialogServiceConnector.
Улучшены стабильность подключений для многоэтапных взаимодействий и отчеты о сбоях (через события Canceled) при их возникновении в DialogServiceConnector.
При запуске сеансов DialogServiceConnector теперь будут корректно предоставляться события, в том числе при вызове ListenOnceAsync() во время активного StartKeywordRecognitionAsync().
Решена проблема сбоев, связанная с получением действий DialogServiceConnector

примеры

Краткое руководство по Xamarin
Обновлено краткое руководство по CPP, внесена информация о Linux ARM64.
Обновлено краткое руководство по Unity, внесена информация об iOS.

Пакет SDK для службы "Речь" 1.6.0. Выпуск за июнь 2019 г.

примеры

Примеры краткого руководства для преобразования текста в речь на UWP и Unity
Пример краткого руководства для Swift в iOS
Примеры Unity для распознавания речи и намерений и перевода
Обновленные примеры краткого руководства для DialogServiceConnector

Улучшения и изменения

Пространство имен диалогового окна:
- SpeechBotConnector был переименован в DialogServiceConnector.
- BotConfig был переименован в DialogServiceConfig.
- BotConfig::FromChannelSecret() был переназначен в DialogServiceConfig::FromBotSecret().
- Все существующие клиенты Direct Line Speech продолжают поддерживаться после переименования.
Адаптер TTS REST обновлен для поддержки прокси-сервера, постоянного подключения.
Уточнено сообщение об ошибке при передаче недопустимого региона.
Swift/Objective-C:
- Улучшена отчетность об ошибках: методы, которые могут приводить к ошибке, теперь присутствуют в двух версиях: одна из них предоставляет объект NSError для обработки ошибок, другая вызывает исключение. Первая из них предоставляет данные для Swift. Это изменение требует внесения адаптаций в существующий код Swift.
- Улучшенная обработка событий

Исправления ошибок

Исправление ошибки в TTS, при которой будущее SpeakTextAsync возвращалось без ожидания завершения обработки звука
Исправление для строк маршалинга в C# с целью обеспечения полной языковой поддержки
Исправление проблемы с приложением .NET Core при загрузке основной библиотеки с использованием net461 Target Framework в примерах
Устранение редко возникающих проблем при развертывании собственных библиотек в выходной папке в примерах
Исправление для обеспечения надежного закрытия Web Socket
Устранение возможных сбоев при открытии подключения в условиях высокой нагрузки в Linux
Исправление для устранения отсутствующих метаданных в пакете платформы для macOS
Устранение проблем с pip install --user в Windows

Пакет SDK для службы "Речь" 1.5.1

Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.

Исправления ошибок

Исправлена ошибка в FromSubscription при использовании с функцией Транскрибирования бесед.
Исправлена ошибка в выявлении ключевых слов для голосовых помощников.

Пакет SDK для службы "Речь" 1.5.0. Выпуск за май 2019 г.

новые функции;

Для Windows и Linux стало доступно выявление ключевых слов (KWS). Функции KWS могут работать с микрофонами любого типа, однако официальная поддержка KWS в настоящее время ограничена микрофонами, находящимися в оборудовании Azure Kinect DK или в пакете SDK для речевых устройств.
Функции подсказки фраз доступны через пакет SDK. Дополнительные сведения см. здесь.
Функции транскрибирования бесед доступны через пакет SDK.
Добавлена поддержка голосовых помощников с использованием канала Direct Line Speech.

примеры

Добавлены примеры для новых функций и новых служб, поддерживаемых пакетом SDK.

Улучшения и изменения

Добавлены различные свойства распознавателя для настройки поведения службы и результатов ее работы (включая, например, маскирование ненормативной лексики).
Теперь можно настроить распознаватель посредством стандартных свойств конфигурации, даже если создан распознаватель FromEndpoint.
Objective-C: свойство OutputFormat добавлено в SPXSpeechConfiguration.
Теперь пакет SDK поддерживает Debian 9 в качестве дистрибутива Linux.

Исправления ошибок

Исправлена проблема, из-за которой ресурс говорящего был деструктировался слишком рано в тексте речи.

Пакет SDK для службы "Речь" 1.4.2

Пакет SDK для службы "Речь" 1.4.1

Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:

Блокировка в веб-пакете загрузки https-proxy-agent.

Пакет SDK для службы "Речь" 1.4.0. Выпуск за апрель 2019 г.

новые функции;

Пакет SDK теперь поддерживает службу "Текст в речь" в качестве бета-версии. Он поддерживается в Windows и Linux Desktop из C++ и C#. Дополнительные сведения проверка обзор текста в речь.
Теперь пакет SDK поддерживает звуковые файлы MP3 и Opus/OGG в формате потоковых входных файлов. Эта функция доступна только в Linux из C++ и C# и сейчас находится на уровне бета-версии (дополнительные сведения см. здесь).
SDK для службы "Речь" для Java, .NET Core, C++ и Objective-C получил поддержку macOS. Поддержка Objective-C для macOS в настоящее время находится на уровне бета-версии.
iOS: SDK для службы "Речь" для iOS (Objective-C) теперь также опубликован в формате CocoaPod.
JavaScript: поддержка микрофона, отличного от используемого по умолчанию, в качестве устройства ввода.
JavaScript: поддержка прокси-сервера для Node.js.

примеры

Добавлены примеры использования пакета SDK для службы "Речь" с C++ и с Objective-C в macOS.
Добавлены примеры, демонстрирующие использование службы "Текст для речи".

Улучшения и изменения

Python: через свойство properties стали доступны дополнительные свойства результатов распознавания.
Для дополнительной поддержки разработки и отладки можно перенаправлять данные журналов и диагностики пакета SDK в файл журнала (дополнительные сведения см. здесь).
JavaScript: повышена производительность обработки звука.

Исправления ошибок

Mac/iOS: устранена ошибка, которая приводила к длительному ожиданию, когда не удавалось установить подключение к службе "Речь".
Python: улучшена обработка ошибок в отношении аргументов в обратных вызовах Python.
JavaScript: исправлена неверная отчетность о состоянии для речи, завершенной в RequestSession.

Пакет SDK для службы "Речь" 1.3.1. Обновление за февраль 2019 г.

Исправление ошибок

Устранена утечка памяти при использовании ввода с микрофона. Потоковый и файловый ввод не затронуты.

Пакет SDK для службы "Речь" 1.3.0. Выпуск за февраль 2019 г.

новые функции;

Пакет SDK для службы "Речь" поддерживает выбор микрофонного входа, используя класс AudioConfig. Это дает возможность выполнять потоковую передачу аудиоданных в службу "Речь" с микрофона, не выбранного по умолчанию. Дополнительные данные см. в документации о выборе устройств для получения аудиоданных. Эта возможность пока недоступна из JavaScript.
Пакет SDK для службы "Речь" теперь поддерживает Unity в бета-версии. Оставьте отзыв в разделе проблем репозитория GitHub с примерами. Текущий выпуск поддерживает Unity на 32- или 64-разрядной ОС Windows (классическое приложение или приложение универсальной платформы Windows) и Android (32- или 64-разрядная архитектура ARM). Дополнительные сведения можно найти в кратком руководстве по Unity.
Файл Microsoft.CognitiveServices.Speech.csharp.bindings.dll (предоставлявшийся в предыдущих выпусках) впредь не требуется. Теперь функциональные возможности интегрированы в базовый пакет SDK.

примеры

В нашем репозитории с примерами размещено следующее новое содержимое:

дополнительные примеры для AudioConfig.FromMicrophoneInput;
дополнительные примеры Python для распознавания намерений и перевода;
дополнительные примеры по использованию объекта Connection в iOS;
дополнительные примеры на Java для перевода с выводом звуковых данных;
новый пример использования REST API пакетного транскрибирования.

Улучшения и изменения

Python
- Улучшены проверка параметров и сообщения об ошибках в SpeechConfig.
- Добавлена поддержка для объекта Connection.
- Поддержка 32-разрядной версии Python (x86) на Windows.
- Выпущена бета-версия пакета SDK службы "Речь" для Python.
iOS
- Пакет SDK теперь компилируется с пакетом SDK для iOS версии 12.1.
- Пакет SDK теперь поддерживает версию iOS 9.2 и более поздние версии.
- Улучшена справочная документация и исправлены несколько имен свойств.
JavaScript
- Добавлена поддержка для объекта Connection.
- Добавлены файлы определений типов для объединенного файла JavaScript.
- Первичная поддержка и реализация подсказок для фраз.
- Возвращается коллекция свойств с шаблоном JSON для службы распознавания.
Библиотеки DLL для Windows теперь содержат ресурс версии.
При создании распознавателя FromEndpoint можно добавлять параметры непосредственно в URL-адрес конечной точки. Используя FromEndpoint, невозможно настроить распознаватель с помощью стандартных свойств конфигурации.

Исправления ошибок

Неправильно обрабатывались пустые значения для имени пользователя и пароля прокси-сервера. В этом выпуске при установке имени пользователя прокси-сервера и пароля прокси-сервера в пустую строку они не будут отправляться при подключении к прокси-серверу.
Создаваемый пакетом SDK идентификатор сеанса (SessionId) в некоторых языках и средах не был достаточно случайным. Для устранения этой проблемы добавлена инициализация генератора случайных чисел.
Улучшена обработка маркера авторизации. Чтобы использовать маркер авторизации, следует указать это в SpeechConfig и оставить пустым значение ключа подписки. После этого создайте распознаватель обычным образом.
В некоторых ситуациях объект Connection освобождался некорректно. Теперь эта проблема устранена.
Исправлен пример JavaScript для поддержки аудиовыхода для синтеза перевода в браузере Safari.

Пакет SDK для службы "Речь" 1.2.1

Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:

Срабатывание завершения потока по turn.end вместо speech.end.
Исправлена ошибка в конвейере аудио, которая мешала запланировать новую отправку при сбое текущей отправки.
Исправлено непрерывное распознавание с маркером проверки подлинности.
Исправлены ошибки для некоторых распознавателей и конечных точек.
Улучшена документация.

Пакет SDK для службы "Речь" 1.2.0. Выпуск за декабрь 2018 г.

новые функции;

Python
- В этом выпуске доступна бета-версия поддержки Python (3.5 и более поздних версий). Дополнительные сведения см. здесь (../../quickstart-python.md).
JavaScript
- Пакет SDK для службы "Речь" для JavaScript преобразован в ресурс с открытым исходным кодом. Исходный код доступен на сайте GitHub.
- Добавлена поддержка Node.js. Дополнительные сведения можно найти здесь.
- Ограничение длины для аудиосеансов снято, повторное подключение происходит автоматически.
Connection Объекта
- Из Recognizer можно получить доступ к объекту Connection. Этот объект позволяет явно инициировать подключение к службе и подписаться на события подключения и отключения. (Эта возможность пока недоступна из JavaScript и Python.)
Поддержка Ubuntu 18.04.
Android
- Включена поддержка ProGuard во время создания пакета APK.

Улучшения

Улучшения в использовании внутреннего потока, сокращение числа потоков, блокировок, взаимных исключений.
Улучшены сведения и сообщения об ошибках. В нескольких случаях сообщения об ошибках не были распространены во всем выходе.
Изменены зависимости разработки в JavaScript, чтобы использовать модули последних версий.

Исправления ошибок

Исправлены утечки памяти из-за несоответствия типов в RecognizeAsync.
В некоторых случаях возникала утечка исключений.
Исправление утечки памяти в аргументах событий перевода.
Исправлена проблема с блокировкой при повторном подключении в длительных сеансах.
Исправлена проблема, которая могла приводить к отсутствию окончательного результата для переводов, завершившихся сбоем.
C#: если операция async не ожидалась в основном потоке, распознаватель мог быть удален до завершения асинхронной задачи.
Исправлена проблема, которая приводила к сбою на VM Java.
Objective-C: исправлено сопоставление перечислений: вместо RecognizingIntent возвращалось RecognizedIntent.
JavaScript: в SpeechConfig задан выходной формат по умолчанию "Простой".
JavaScript: устранена несогласованность между свойствами объекта конфигурации в JavaScript и других языках.

примеры

Обновлено и исправлено несколько примеров (в частности, выходные голоса для перевода).
Добавлены примеры для Node.js в репозиторий примеров.

Пакет SDK для службы "Речь" 1.1.0

новые функции;

Поддержка Android x86/x64.
Поддержка прокси-сервера: в объекте SpeechConfig теперь можно вызвать функцию для задания сведений о прокси-сервере (имя узла, порт, имя пользователя и пароль). Эта функция пока недоступна в iOS.
Улучшенный код ошибки и сообщения. Если распознавание возвращает ошибку, это означает, что для Error уже установлен набор Reason (в отмененное событие) или CancellationDetails (в результат распознавания). Отмененное событие теперь содержит два дополнительных элемента: ErrorCode и ErrorDetails. Если сервер вернул дополнительные сведения об ошибке вместе с сообщаемой ошибкой, то она будет доступна в новых элементах.

Улучшения

В конфигурацию распознавателя добавлена дополнительная проверка и сообщение об ошибке.
Улучшена обработка долгого периода тишины в середине звукового файла.
Пакет NuGet: не допускает компиляцию с конфигурацией AnyCPU для проектов .NET Framework.

Исправления ошибок

Исправлено несколько исключений из распознавателей. В дополнение к этому исключения перехватываются и преобразуются в событие Canceled.
Утечка памяти в управлении свойствами устранена.
Ошибка, в которой входной файл аудио мог стать причиной аварийного завершения распознавателя, исправлена.
Исправлена ошибка, где события могут быть получены после остановки сеанса.
Исправлены некоторые состояния гонки в потоке.
Проблема совместимости, которая может привести к аварийному завершению iOS, исправлена.
Улучшение стабильности для поддержки микрофона на Android.
Исправлена ошибка, где распознаватель в JavaScript игнорирует распознавание языка.
Исправлена ошибка, которая блокирует задание настройки EndpointId (в некоторых ситуациях) в JavaScript.
Изменен порядок параметров в AddIntent в JavaScript, добавлена отсутствующая сигнатура AddIntent JavaScript.

примеры

Добавлены примеры C++ и C# для извлечения и отправки потоковой передачи по запросу из репозитория примеров.

Пакет SDK для службы "Речь" 1.0.1

Повышение надежности и устранение ошибок:

Исправлена потенциальная неустранимая ошибка из-за состояния гонки в удаленном распознавателе
Исправлена потенциальная неустранимая ошибка в случае наличия незаданных свойств.
Добавлены дополнительные ошибки и проверки параметров.
Objective-C: исправлена потенциальная неустранимая ошибка, возникающая из-за переопределения имени в NSString.
Objective-C: скорректирована видимость API
JavaScript: исправления относительно событий и их полезных данных.
Улучшена документация.

В нашем репозитории примеров добавлен новый пример для JavaScript.

Пакет SDK службы "Речь ИИ Azure" 1.0.0: выпуск 2018-сентябрь

новые функции;

Поддержка Objective-C в iOS. Ознакомьтесь с нашим кратким руководством по Objective-C для iOS.
Поддержка JavaScript в браузере. Ознакомьтесь с нашим кратким руководством по JavaScript.

Критические изменения

В этом выпуске вводится ряд критических изменений. Дополнительные сведения см. на этой странице.

Пакет SDK службы "Речь ИИ Azure" 0.6.0: выпуск за август 2018 г.

новые функции;

Теперь приложения UWP, созданные с использованием пакета SDK для службы "Речь", могут пройти сертификацию WACK (комплект сертификации приложений для Windows). Ознакомьтесь с кратким руководством по UWP.
Поддержка платформы .NET Standard 2.0 в Linux (Ubuntu 16.04 x 64).
Экспериментальная функция: поддержка Java 8 в 64-разрядной версии Windows и Linux (Ubuntu 16.04 x 64). Ознакомьтесь с кратким руководством по среде выполнения Java.

Функциональное изменение

Предоставление дополнительных сведений об ошибках подключения.

Критические изменения

В Java (Android) функция SpeechFactory.configureNativePlatformBindingWithDefaultCertificate больше не требует параметр пути. Теперь путь автоматически определяется на всех поддерживаемых платформах.
Функция доступа get для свойства EndpointUrl в Java и C# была удалена.

Исправления ошибок

Теперь в Java реализован результат аудиосинтеза на распознавателе перевода.
Исправлена ошибка, которая могла привести к появлению неактивных потоков и увеличению числа открытых и неиспользуемых сокетов.
Исправлена проблема, при которой длительное распознавание могло завершиться в середине передачи.
Исправлено состояние гонки при завершении работы распознавателя.

Пакет SDK службы "Речь ИИ Azure" 0.5.0: выпуск 2018-июль

новые функции;

Поддержка платформы Android (API 23: Android 6.0 Marshmallow или более поздней версии). Ознакомьтесь с кратким руководством для Android.
Поддержка платформы .NET Standard 2.0 в Windows. Ознакомьтесь с кратким руководством для .NET Core.
Экспериментальная функция: поддержка UWP в Windows (версия 1709 или более поздняя версия).
- Ознакомьтесь с кратким руководством по UWP.
- Обратите внимание, что приложения UWP, созданные с помощью пакета SDK для службы "Речь", еще не передают комплект сертификации приложений Windows (WACK).
Поддержка длительного распознавания с автоматическим переподключением.

Функциональные изменения

StartContinuousRecognitionAsync() поддерживает длительное распознавание.
Результат распознавания содержит дополнительные поля. Это смещение от начала звука и длительность (в тактах) распознанного текста, а также дополнительные значения, представляющие состояние распознавания, например InitialSilenceTimeout и InitialBabbleTimeout.
Поддержка AuthorizationToken для создания экземпляров фабрики.

Критические изменения

События распознавания: тип события NoMatch объединен с событием Error.
SpeechOutputFormat в C# переименован в OutputFormat, чтобы сохранить согласованность с C++.
Возвращаемый тип некоторых методов AudioInputStream интерфейса немного изменился:
- В Java метод read теперь возвращает long вместо int.
- В C# метод Read теперь возвращает uint вместо int.
- В C++ методы Read и GetFormat теперь возвращают size_t вместо int.
C++: экземпляры входных аудиопотоков теперь могут передаваться только как shared_ptr.

Исправления ошибок

Исправлены неправильные возвращаемые значения в результате после истечения времени ожидания RecognizeAsync().
Удалена зависимость от библиотек Media Foundation в Windows. Теперь пакет SDK использует интерфейсы API Core Audio.
Исправление документации: добавлена страница с описанием поддерживаемых регионов.

Известная проблема

Пакет SDK для службы "Речь" не передает результаты синтеза речи для перевода. Эта проблема будет устранена в следующем выпуске.

Пакет SDK службы "Речь ИИ Azure" 0.4.0: выпуск за июнь 2018 г.

Функциональные изменения

AudioInputStream

Распознаватель теперь может использовать поток в качестве источника звука. Дополнительные сведения см. в соответствующем практическом руководстве.
Подробный формат выходных данных

При создании SpeechRecognizer можно запросить формат выходных данных Detailed или Simple. DetailedSpeechRecognitionResult содержит оценку достоверности, распознанный текст, необработанную лексическую форму, нормализованную форму и нормализованную форму с маской ненормативной лексики.

Критическое изменение

В C# SpeechRecognitionResult.RecognizedText заменено на SpeechRecognitionResult.Text.

Исправления ошибок

Устранена проблема с возможным обратным вызовом в слое USP во время завершения работы.
Если распознаватель использует входной аудиофайл, он удерживает дескриптор файла дольше, чем необходимо.
Устранены различные взаимоблокировки между генератором сообщений и распознавателем.
Срабатывает результат NoMatch по истечении времени ожидания ответа от службы.
Библиотеки Media Foundation в Windows загружаются с задержкой. Эта библиотека требуется только для ввода с микрофона.
Скорость передачи для аудиоданных ограничена примерно в два раза относительно исходной скорости.
В Windows сборки .NET для C# теперь имеют строгие имена.
Исправление документации: Region — обязательная информация для создания распознавателя.

Добавлены дополнительные примеры, которые постоянно обновляются. Актуальный набор примеров доступен в репозитории GitHub с примерами пакета SDK для службы "Речь".

Пакет SDK службы "Речь ИИ Azure" 0.2.12733: выпуск за май 2018 г.

Этот выпуск является первым общедоступным предварительным выпуском пакета SDK службы "Речь" для Azure AI.

Интерфейс командной строки службы "Речь" 1.37.0: выпуск за апрель 2024 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.37.0

Новые возможности

ничего

Исправления ошибок

ничего

Интерфейс командной строки службы "Речь" 1.36.0: выпуск за март 2024 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.36.0

Новые возможности

ничего

Исправления ошибок

ничего

Интерфейс командной строки службы "Речь" 1.35.0: выпуск за февраль 2024 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.35.0

Новые возможности

ничего

Исправления ошибок

Обновление зависимости JMESPath до последней версии

Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.34.0

Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.34.0

Интерфейс командной строки службы "Речь" 1.31.0: выпуск за август 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.31.0

Интерфейс командной строки службы "Речь" 1.30.0: выпуск за июль 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.30.0

Интерфейс командной строки службы "Речь" 1.29.0: выпуск за июнь 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.29.0

Интерфейс командной строки службы "Речь" 1.28.0: выпуск за май 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.28.0

Интерфейс командной строки службы "Речь" 1.27.0: выпуск за апрель 2023 г.

Обновления

Обновлено для использования пакета SDK для службы "Речь" версии 1.27.0
Обновите конечную точку по умолчанию, чтобы использовать REST API версии 3.1 для пользовательского распознавания речи и распознавания речи пакетной службы.

Исправления ошибок

Исправления, связанные с анализом или настройкой параметров запроса.

Интерфейс командной строки службы "Речь" 1.26.0: выпуск за март 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.26.0.

Интерфейс командной строки службы "Речь" 1.25.0: выпуск за январь 2023 г.

Обновлено для использования пакета SDK для службы "Речь" версии 1.25.0.

Интерфейс командной строки службы "Речь" 1.24.0: выпуск за октябрь 2022 г.

Использует пакет SDK службы "Речь" 1.24.0.

Новые возможности

Развернутый "spx проверка" для поддержки запросов JMESPath ко всем событиям spx

Исправления ошибок

Различные улучшения надежности для оценки запросов JMESPath
Исправление усечения для операций записи файлов, которые могут возникнуть на компьютерах с ограниченными ресурсами

CLI службы "Речь" 1.23.0: выпуск июня 2022 г.

Использует пакет SDK службы "Речь" версии 1.23.0.

новые функции;

Улучшенное разделение длинных заголовков (--output vtt и --output srt) (максимум 37 символов, 3 строки)
Документированные параметры spx synthesize--format (см. spx help synthesize format)
Документировано большинство spx csr команд и параметров (см. раздел spx help csr)
Добавлена команда spx csr model copy (см. spx help csr model copy)
Добавлен параметр --check resultс помощью запросов JMES (см. spx help check result)
Улучшенные сообщения об ошибках при указании недопустимых параметров команды
Перемещено из .NET Core 3.1 в .NET 6.0. Чтобы запустить интерфейс командной строки службы "Речь", необходимо установить среду выполнения .NET 6.0 (или более поздней версии).

Исправления ошибок

Обновлены все URL-адреса для удаления языка (например, en-US)
Исправлена информация о версии для правильного отчета во всех случаях (ранее она иногда показывала пустое значение)

CLI службы "Речь" 1.22.0: выпуск за июнь 2022 г.

Использует пакет SDK службы "Речь" версии 1.22.0.

новые функции;

Добавлена команда spx init, с помощью которой пользователи могут создать ключ ресурса службы "Речь" не переходя на веб-портал Azure.
Теперь контейнеры Docker службы "Речь" включены в Azure CLI, поэтому spx init команда работает из поля.
Добавлена метка времени в качестве параметра вывода данных о событиях, чтобы повысить полезность SPX при вычислении задержки.

Интерфейс командной строки службы "Речь" 1.21.0: выпуск за апрель 2022 г.

Использует пакет SDK службы "Речь" версии 1.21.0.

новые функции;

Создание заголовка WEBVTT
- В команду spx translate добавлена поддержка параметра --output vtt.
- Поддерживает --output vtt file FILENAME для переопределения имени файла VTT по умолчанию.
- Поддерживает --output vtt file - для записи в стандартный поток вывода.
- Отдельные файлы VTT создаются для каждого целевого языка (например --target en;de;fr)
Создание заголовков SRT
- Добавлена поддержка параметра --output srt для spx recognize, spx intent и spx translate.
- Поддерживает --output srt file FILENAME для переопределения имени файла SRT по умолчанию.
- Поддерживает --output srt file - для записи в стандартный поток вывода.
- Для spx translateкаждого целевого языка создаются отдельные файлы SRT (например --target en;de;fr)

Исправления ошибок

Исправлен вывод интервала времени WEBVTT для правильного использования формата hh:mm:ss.fff.

CLI для службы "Речь" 1.20.0: выпуск за январь 2022 г.

новые функции;

Распознавание говорящего
- spx profile enroll и spx speaker [identify/verify] теперь поддерживают ввод с микрофона
Распознавание намерений (spx intent)
- --keyword FILE.table
- --pattern и --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (теперь непрерывные по умолчанию)
- --output all/each connection EVENT
- --output all/each connection message (например, text, path)
Ожидание выходных данных консоли CLI проверка/разработки:
- Поддержка --expect PATTERN и --not expect PATTERN для всех команд
- --auto expectдля помощи при разработке ожидаемых шаблонов
Ожидание выходных данных в журнале SDK проверка/разработки
- Поддержка --log expect PATTERN и --not log expect PATTERN для всех команд
- Поддержка --log auto expect [FILTER] для всех команд
- Поддержка --log FILE для spx profile и spx speaker
Входные данные аудиофайла
- Поддержка --format ANY для всех команд
- Поддержка --file - (чтение из стандартных входных данных, включение сценариев каналов)
Выходные данные аудиофайла
- --audio output - Запись в стандартный вывод, включение сценариев каналов
Выходные файлы
- --output all/each file - Запись в стандартный вывод
- --output batch file - Запись в стандартный вывод
- --output vtt file - Запись в стандартный вывод
- --output json file - Запись в стандартный вывод, для spx csr команд и spx batch
Свойства выходных данных
- --output […] result XXX property (PropertyId или строка)
- --output […] connection message received XXX property (PropertyId или строка)
- --output […] recognizer XXX property (PropertyId или строка)
Интеграция веб-заданий Azure
- spx webjob теперь использует шаблон подкоманд
- Обновленная справка по веб-заданию, содержащая шаблон подкоманды (см. spx help webjob)

Исправления ошибок

Исправлена ошибка, когда --output vtt FILE и --output batch FILE использовались одновременно.
spx [...] --zip ZIPFILENAME теперь содержит все двоичные файлы, необходимые для всех сценариев (если они есть).
Команды spx profile и spx speaker теперь возвращают подробные сведения об ошибке при отмене.

Выпуск 2021-May

новые функции;

Добавлена поддержка для профиля, идентификатора говорящего и проверки говорящего. Попробуйте выполнить spx profile и spx speaker из командной строки.
Кроме того, добавлена поддержка диалоговых окон. Попробуйте выполнить spx dialog из командной строки.
Улучшена справка для spx. Откройте документ проблема GitHub и поделитесь своим мнением.
Сокращен размер средства установки .NET.

Усеченное тестирование в связи с COVID-19

Поскольку вследствие пандемии нашим инженерам по-прежнему требуется работать из дома, сценарии проверки вручную, разработанные до начала пандемии, были существенно сокращены. Мы проводим тестирование на меньшем количестве устройств, с меньшим количеством конфигураций, и вероятность незамеченных ошибок, возникающих в конкретных рабочих средах, может вырасти. Мы по-прежнему проводим тщательный контроль с большим набором средств автоматизации. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!

Выпуск за март 2021 г.

новые функции;

Добавлена команда spx intent для распознавания намерений, заменяющая spx recognize intent.
Для распознавании намерений теперь можно использовать функции Azure, чтобы вычислять частоту ошибок в словах с помощью spx recognize --wer url <URL>.
Теперь функция распознавания может выводить результаты в формате файлов VTT с помощью spx recognize --output vtt file <FILENAME>.
Конфиденциальные данные ключей теперь скрыты в данных отладки/подробного вывода.
Добавлена проверка URL-адреса и выдача сообщения об ошибке для поля содержимого в разделе создания транскрипции пакета.

Усеченное тестирование в связи с COVID-19

Выпуск за январь 2021 г.

новые функции;

CLI службы "Речь" теперь доступен в формате пакета NuGet и может быть установлен через .NET CLI в качестве глобального инструмента .NET, который можно вызвать из оболочки или командной строки.
Репозиторий шаблона шаблона DevOps для пользовательской речи был обновлен для использования интерфейса командной строки службы "Речь" для рабочих процессов пользовательской речи.

Усеченное тестирование в связи с COVID-19

Выпуск за октябрь 2020 г.

SPX — это интерфейс командной строки для использования службы "Речь" без написания кода. Скачать последнюю версию здесь.

новые функции;

spx csr dataset upload --kind audio|language|acoustic — создание наборов данных из локальных данных, а не только из URL-адресов.
spx csr evaluation create|status|list|update|delete — сравнение новых моделей с базовыми истинными/другими моделями.
spx * list — поддержка нестраничного интерфейса (не требуется --top X --skip X).
spx * --http header A=B — поддержка пользовательских заголовков (добавленных для Office для целей пользовательской аутентификации).
spx help — улучшенная цветовая палитра текста и текста с обратными кавычками (синий цвет).

Выпуск за июнь 2020 г.

Добавлены функции поиска в интерфейсе командной строки:
- spx help find --text TEXT
- spx help find --topic NAME
Обновлено для работы с недавно развернутыми API пакетной службы версии 3.0 и пользовательскими API речи:
- spx help batch examples
- spx help csr examples

Усеченное тестирование в связи с COVID-19

CLI службы "Речь" (также именуемый SPX): выпуск за май 2020 г.

SPX — это новое средство командной строки, позволяющее выполнять распознавание, синтез, перевод, пакетное транскрибирование и пользовательское управление речью из командной строки. Используйте его для тестирования службы "Речь" или написания сценариев задач для службы "Речь". Загрузите инструмент и прочитайте документацию здесь.

Выпуск за апрель 2024 г.

Аватар текста для речи

Теперь вы можете задать статический фоновый образ для аватаров. Чтобы использовать эту функцию, просто используйте avatarConfig.backgroundImage свойство и укажите URL-адрес, указывающий на нужное изображение. Сведения о детиалах см. в разделе "Как изменить фон".

Выпуск за март 2024 г.

Предварительно созданный нейронный голос

9 многоязычных голосов общедоступны во всех регионах: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, fr-FR-RemyMultilingualNeuralen-US-BrianMultilingualNeuralzh-CN-XiaoxiaoMultilingualNeuralen-US-EmmaMultilingualNeuralde-DE-FlorianMultilingualNeuralde-DE-SeraphinaMultilingualNeuralfr-FR-VivienneMultilingualNeuralи . Дополнительные сведения см. в полном списке языков и голосовой связи .
Знакомство с новым многоязычным голосом для общедоступной предварительной версии: ja-JP-MasaruMultilingualNeural Дополнительные сведения см. в полном списке языков и голосовой связи .
Дополнительные обновления:
- en-US-RyanMultilingualNeural общедоступен во всех регионах.
- en-US-JennyMultilingualV2Neural общедоступен во всех регионах, объединенных с en-US-JennyMultilingualNeural.
- Предварительная версия доступна для обновленных en-IN-NeerjaNeural и hi-IN-SwaraNeural с 3 новыми стилями в восточной части США, Западной Европы и Юго-Восточной Азии.
- Предварительная версия доступна для новых женских голосов в Центральной Индии: en-IN-KavyaNeural, , en-IN-AnanyaNeural, en-IN-AashiNeuralhi-IN-KavyaNeuralи hi-IN-AnanyaNeural.

Аватар текста для речи

Удалена зависимость от Службы коммуникации Azure (ACS) TURN для аватара в режиме реального времени. Пример кода был обновлен соответствующим образом, чтобы отразить это изменение.
Опубликованные цены на текст для аватара речи. Дополнительные сведения см. на странице цен. Обратите внимание, что цены на аватар будут отображаться только для регионов службы, где эта функция доступна, включая западную часть США 2, Западную Европу и Юго-Восточную Азию.

Выпуск за февраль 2024 г.

Голоса OpenAI

Служба "Речь Azure AI" поддерживает текст OpenAI для голосов речи в следующих регионах: Северная часть США и Центральная Швеция. Как и голосовая речь Azure AI, текст OpenAI для голосовых функций обеспечивает высококачественный синтез речи, чтобы преобразовать написанный текст в естественный звуковой звук. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем. Дополнительные сведения см. в разделе "Что такое текст OpenAI для голосов речи?".

Примечание.

Текст OpenAI для голосовых функций также доступен в Службе OpenAI Azure.
В этом обновлении мы изменили цены на предварительно созданные нейронные голоса с помощью службы "Речь ИИ Azure". Проверьте обновленные цены здесь.

Личный голос

Теперь функция личной голосовой связи поддерживает DragonLatestNeural и PhoenixLatestNeural модели. Эти новые модели повышают естественность синтезированных голосов, лучше напоминая характеристики речи голоса в запросе. Дополнительные сведения см. в статье "Интеграция личного голоса в приложении".

Выпуск за декабрь 2023 г.

Пользовательский API голосовой связи

Пользовательский API голосовой связи доступен для создания профессиональных и личных моделей нейронных голосовых моделей и управления ими.

Пользовательский нейронный голос

Недавно обученные модели голосовой связи теперь поддерживают частоту выборки 48 кГц независимо от версии модели. Для ранее обученных моделей голосовой связи необходимо обновить версию двигателя до не менее 2023.11.13.0 , чтобы повысить частоту выборки до 48 кГц.

Предварительно созданный нейронный голос

Знакомство с новыми многоязычными голосами для общедоступной предварительной версии:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`de-DE`	Немецкий (Германия)	`de-DE-FlorianMultilingualNeural` (мужской)
`de-DE`	Немецкий (Германия)	`de-DE-SeraphinaMultilingualNeural` (женский)
`en-US`	Английский (Соединенные Штаты)	`en-US-AvaMultilingualNeural` (женский)
`en-US`	Английский (Соединенные Штаты)	`en-US-EmmaMultilingualNeural` (женский)
`fr-FR`	Французский (Франция)	`fr-FR-RemyMultilingualNeural` (мужской)
`en-US`	Английский (Соединенные Штаты)	`en-US-BrianMultilingualNeural` (мужской)
`en-US`	Английский (Соединенные Штаты)	`en-US-AndrewMultilingualNeural` (мужской)
`fr-FR`	Французский (Франция)	`fr-FR-VivienneMultilingualNeural` (женский)
`zh-CN`	Китайский (мандаринский, упрощенное письмо)	`zh-CN-XiaoxiaoMultilingualNeural` (женский)
`zh-CN`	Китайский (мандаринский, упрощенное письмо)	`zh-CN-XiaochenMultilingualNeural` (женский)
`zh-CN`	Китайский (мандаринский, упрощенное письмо)	`zh-CN-YunyiMultilingualNeural` (мужской)

Знакомство с новыми zh-CN-XiaoxiaoDialectsNeural голосами для общедоступной предварительной версии, которые поддерживают несколько китайских диалектов и акцентов:

Имя голоса	Дополнительный язык	Диалект/акцент
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Китайский (Zhongyuan Mandarin Shaanxi, упрощено)
	`zh-CN-sichuan`	Китайский (юго-западное мандаринское письмо, упрощенное письмо)
	`zh-CN-shanxi`	Китайский (Shanxi Accent Mandarin, упрощенный)
	`nan-CN`	Китайский (южный мин, упрощенный)
	`zh-CN-anhui`	Китайский (Цзянхуай Мандарин Аньхуа, упрощенный)
	`zh-CN-hunan`	Китайский (Hunan Accent Mandarin, упрощенный)
	`zh-CN-gansu`	Китайский (Lanyin Mandarin Gansu, упрощено)
	`zh-CN-shandong`	Китайский (Джилу Мандарин, упрощенное письмо)
	`zh-CN-henan`	Китайский (Zhongyuan Mandarin Henan, упрощено)
	`zh-CN-liaoning`	Китайский (северо-восточной части Мандарина, упрощенное письмо)
	`zh-TW`	Китайский (тайваньский мандаринский диалект, традиционное письмо)

Выпуск за ноябрь 2023 г.

Личный голос

Личный голос доступен в предварительной версии в следующих регионах: Западная Европа, Восточная ЧАСТЬ США и Юго-Восточная Азия. С помощью личного голоса (предварительная версия) вы можете получить искусственный интеллект, созданный реплика tion вашего голоса (или пользователей вашего приложения) в течение нескольких секунд. Вы предоставляете в качестве звукового запроса один минутный образец речи, а затем используете его для создания речи на любом из более чем 90 языков, поддерживаемых более чем в 100 языковых стандартах.

Дополнительные сведения см. в разделе "Личный голос".

Аватар текста для речи

Аватар речи доступен в предварительной версии в следующих регионах: Западная часть США 2, Западная Европа и Юго-Восточная Азия.

Текст на аватар речи преобразует текст в цифровое видео фотореалистического человека (предварительно созданного аватара или пользовательского текста для речи аватара), выступающего с естественным звуком. Текст для речи аватар видео можно синтезировать асинхронно или в режиме реального времени. Разработчики могут создавать приложения, интегрированные с текстом в речь аватаром через API, или использовать средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.

Дополнительные сведения см . в тексте аватара речи, заметках прозрачности и раскрытии информации о таланте голоса и аватара.

Пользовательский нейронный голос

Добавлена поддержка 24 новых языковых стандартов для межлингового голоса. Дополнительные сведения см. в полном списке языков.

Предварительно созданный нейронный голос

Знакомство с новыми голосами для общедоступной предварительной версии:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`de-DE`	Немецкий (Германия)	`SeraphinaNeural` (женский)
`es-ES`	испанский (Испания)	`XimenaNeural` (женский)
`fr-CA`	Французский (Канада)	`ThierryNeural` (мужской)
`fr-FR`	Французский (Франция)	`VivienneNeural` (женский)
`it-IT`	Итальянский (Италия)	`GiuseppeNeural` (мужской)
`ko-KR`	корейский (Корея)	`HyunsuNeural` (мужской)
`pt-BR`	португальский (Бразилия)	`ThalitaNeural` (женский)

Модели, обновленные с исправленными ошибками и улучшением качества:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`es-ES`	испанский (Испания)	`AlvaroNeural` (мужской)
`en-GB`	Английский (Великобритания)	`RyanNeural` (мужской)
`ko-KR`	корейский (Корея)	`InjoonNeural` (мужской)

Дополнительные сведения см. в полном списке языков и голосовой связи .

Выпуск за октябрь 2023 г.

Пользовательский нейронный голос

Добавлена поддержка 12 новых языковых стандартов с пользовательским нейронным голосом Pro. Дополнительные сведения см. в полном списке языков.

Выпуск за сентябрь 2023 г.

Предварительно созданный нейронный голос

Знакомство с новыми голосами для общедоступной предварительной версии:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`en-US`	Английский (Соединенные Штаты)	`en-US-EmmaNeural` (женский)
`en-US`	Английский (Соединенные Штаты)	`en-US-AndrewNeural` (мужской)
`en-US`	Английский (Соединенные Штаты)	`en-US-BrianNeural` (мужской)

Дополнительные сведения см. в полном списке языков и голосовой связи .

Внедренный нейронный голос

Все 147 языковых стандартов здесь (кроме fa-IR, персидского (Ирана)) доступны из коробки с 1 выбранной женщиной и /или 1 выбранными мужскими голосами.

Выпуск за август 2023 г.

Пользовательский нейронный голос

В настоящее время выпущена последняя версия рецепта обучения CNV Lite. В этом выпуске реализовано несколько улучшений качества языковых моделей. Попробуйте использовать Speech Studio.

Выпуск: июль 2023 г.

Пользовательский нейронный голос

Голосовая связь с несколькими стилями общедоступна.
Добавлены два новых языковых стандарта в общедоступной предварительной версии для голосовой связи с несколькими стилями: ja-JP и zh-CN. Дополнительные сведения см. в полном списке языков и голосовой связи . Ознакомьтесь со списком стилей предустановки для разных языков.
Межлингвальный голос общедоступен.
Добавлено два новых языковых стандарта для межлингового голоса: id-ID и nl-NL. Дополнительные сведения см. в полном списке языков и голосовой связи .

Предварительно созданные нейронные голоса TTS

Знакомство с новыми en-US гендерными нейтральными голосами для общедоступной предварительной версии:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`en-US`	Английский (Соединенные Штаты)	`en-US-BlueNeural` (Нейтральный)

Знакомство с новыми многоязычными голосами для общедоступной предварительной версии:

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`en-US`	Английский (Соединенные Штаты)	`en-US-JennyMultilingualV2Neural` (женский)
`en-US`	Английский (Соединенные Штаты)	`en-US-RyanMultilingualNeural` (мужской)

Многоязычные en-US-JennyMultilingualV2Neural голоса и en-US-RyanMultilingualNeural автоматическое обнаружение языка входного текста. Однако элемент по-прежнему можно использовать <lang> для настройки языка речи для этих голосов.

Эти новые многоязычные голоса могут говорить на 41 языках и акцентах: Arabic (Egypt), CatalanArabic (Saudi Arabia)Czech (Czechia)Danish (Denmark)German (Austria)German (Switzerland)German (Germany)English (Australia)English (Canada)English (United Kingdom)English (Hong Kong SAR)English (Ireland)English (India)English (United States)Spanish (Spain)Spanish (Mexico)Finnish (Finland)French (Belgium)French (Canada)French (Switzerland)French (France)Hindi (India)Hungarian (Hungary)Indonesian (Indonesia)Italian (Italy)Japanese (Japan)Korean (Korea)Norwegian Bokmål (Norway)Dutch (Belgium)Dutch (Netherlands)Polish (Poland)Portuguese (Brazil)Portuguese (Portugal)Russian (Russia)Swedish (Sweden)Thai (Thailand)Turkish (Türkiye)Chinese (Mandarin, Simplified)Chinese (Cantonese, Traditional)Chinese (Taiwanese Mandarin, Traditional)

Эти многоязычные голоса не полностью поддерживают некоторые элементы SSML, такие как разрыв, акцент, молчание и под.

Внимание

Голос en-US-JennyMultilingualV2Neural временно предоставляется в общедоступной предварительной версии исключительно для целей оценки. Он будет удален в будущем.

Для того чтобы говорить на языке, отличном от английского, текущая реализация en-US-JennyMultilingualNeural голоса требует установки <lang xml:lang> элемента. Мы ожидаем, что в течение календарного года Q4 2023 en-US-JennyMultilingualNeural голос будет обновлен, чтобы говорить на языке входного текста без <lang xml:lang> элемента. Это будет в паритете с голосом en-US-JennyMultilingualV2Neural .

Знакомство с новыми функциями в общедоступной предварительной версии для следующих голосов:

Добавлены латинские входные данные для сербских (Сербии) sr-RS голосов: sr-latn-RS-SophieNeural и sr-latn-RS-NicholasNeural.
Добавлена поддержка произношения английского языка для албанских (Албания) sq-AL голосов: sq-AL-AnilaNeural и sq-AL-IlirNeural.

Выпуск за май 2023 г.

Создание звукового содержимого

Все предварительно созданные голоса с стилями речи и многоуровневыми пользовательскими голосами поддерживают настройку степени стиля.
Теперь вы можете исправить произношение слова, говоря слово и записав его. Фонемы можно автоматически распознать из записи. Функция распознавания речи теперь доступна в общедоступной предварительной версии.

Выпуск за апрель 2023 г.

Предварительно созданные нейронные голоса TTS

Следующие функции этих голосов перемещены из общедоступной предварительной версии в общедоступную версию:

Стиль	Голос речи в текст
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` и `it-IT-IsabellaNeural`
style="веселый"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` и `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural`и `fr-FR-HenriNeural`

Улучшение произношения на английском языке для hi-INголосов ta-IN и te-IN голосов теперь выполняется в общедоступных регионах предварительной версии

Дополнительные сведения см. в списке языков и голосовых данных.

Выпуск за март 2023 г.

Новые возможности

Язык разметки синтеза речи (SSML) обновляется для поддержки элементов процессора звуковых эффектов, которые оптимизируют качество синтезированных выходных данных речи для определенных сценариев на устройствах. Дополнительные сведения см. в статье Разметка синтеза речи.

Пользовательский нейронный голос

Добавлена поддержка языкового nl-BE стандарта с пользовательским нейронным голосом Pro. Дополнительные сведения см. в полном списке языков и голосовой связи .

Предварительно созданные нейронные голоса TTS

Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`en-AU`	Английский (Австралия)	`en-AU-AnnetteNeural` (женский) `en-AU-CarlyNeural` (женский) `en-AU-DarrenNeural` (мужской) `en-AU-DuncanNeural` (мужской) `en-AU-ElsieNeural` (женский) `en-AU-FreyaNeural` (женский) `en-AU-JoanneNeural` (женский) `en-AU-KenNeural` (мужской) `en-AU-KimNeural` (женский) `en-AU-NeilNeural` (мужской) `en-AU-TimNeural` (мужской) `en-AU-TinaNeural` (женский) `en-AU-WilliamNeural` (мужской)
`en-GB`	Английский (Великобритания)	`en-GB-RyanNeural` (мужской) `en-GB-SoniaNeural` (женский)
`es-ES`	испанский (Испания)	`es-ES-AbrilNeural` (женский) `es-ES-ArnauNeural` (мужской) `es-ES-DarioNeural` (мужской) `es-ES-EliasNeural` (мужской) `es-ES-EstrellaNeural` (женский) `es-ES-IreneNeural` (женский) `es-ES-LaiaNeural` (женский) `es-ES-LiaNeural` (женский) `es-ES-NilNeural` (мужской) `es-ES-SaulNeural` (мужской) `es-ES-TeoNeural` (мужской) `es-ES-TrianaNeural` (женский) `es-ES-VeraNeural` (женский)
`es-MX`	Испанский (Мексика)	`es-MX-JorgeNeural` (мужской)
`fr-FR`	Французский (Франция)	`fr-FR-HenriNeural` (мужской)
`it-IT`	Итальянский (Италия)	`it-IT-IsabellaNeural` (женский)
`ja-JP`	Японский (Япония)	`ja-JP-AoiNeural` (женский) `ja-JP-DaichiNeural` (мужской) `ja-JP-MayuNeural` (женский) `ja-JP-NaokiNeural` (мужской) `ja-JP-ShioriNeural` (женский)

Добавлена поддержка cheerful стиля с голосом de-DE-ConradNeural .

Выпуск за февраль 2023 г.

Предварительно созданные нейронные голоса TTS

Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`zh-CN`	Китайский (мандаринский, упрощенное письмо)	`zh-CN-XiaomengNeural` (женский) `zh-CN-XiaoyiNeural` (женский) `zh-CN-XiaozhenNeural` (женский) `zh-CN-YunfengNeural` (мужской) `zh-CN-YunhaoNeural` (мужской) `zh-CN-YunjianNeural` (мужской) `zh-CN-YunxiaNeural` (мужской) `zh-CN-YunzeNeural` (мужской)
`zh-CN-henan`	Китайский (Zhongyuan Mandarin Henan, упрощено)	`zh-CN-henan-YundengNeural` (мужской)

Выпуск за декабрь 2022 г.

REST API пакетного синтеза (предварительная версия)

API синтеза пакетной службы в настоящее время находится в общедоступной предварительной версии. После общедоступной доступности API Long Audio не рекомендуется. Дополнительные сведения см. в разделе "Миграция в API пакетного синтеза".

Выпуск за ноябрь 2022 г.

Предварительно созданные нейронные голоса TTS (GA)

Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`es-MX`	Испанский (Мексика)	`es-MX-BeatrizNeural` (женский) `es-MX-CandelaNeural` (женский) `es-MX-CarlotaNeural` (женский) `es-MX-CecilioNeural` (мужской) `es-MX-GerardoNeural` (мужской) `es-MX-LarissaNeural` (женский) `es-MX-LibertoNeural` (мужской) `es-MX-LucianoNeural` (мужской) `es-MX-MarinaNeural` (женский) `es-MX-NuriaNeural` (женский) `es-MX-PelayoNeural` (мужской) `es-MX-RenataNeural` (женский) `es-MX-YagoNeural` (мужской)
`it-IT`	Итальянский (Италия)	`it-IT-BenignoNeural` (мужской) `it-IT-CalimeroNeural` (мужской) `it-IT-CataldoNeural` (мужской) `it-IT-FabiolaNeural` (женский) `it-IT-FiammaNeural` (женский) `it-IT-GianniNeural` (мужской) `it-IT-ImeldaNeural` (женский) `it-IT-IrmaNeural` (женский) `it-IT-LisandroNeural` (мужской) `it-IT-PalmiraNeural` (женский) `it-IT-PierinaNeural` (женский) `it-IT-RinaldoNeural` (мужской)
`pt-BR`	португальский (Бразилия)	`pt-BR-BrendaNeural` (женский) `pt-BR-DonatoNeural` (мужской) `pt-BR-ElzaNeural` (женский) `pt-BR-FabioNeural` (мужской) `pt-BR-GiovannaNeural` (женский) `pt-BR-HumbertoNeural` (мужской) `pt-BR-JulioNeural` (мужской) `pt-BR-LeilaNeural` (женский) `pt-BR-LeticiaNeural` (женский) `pt-BR-ManuelaNeural` (женский) `pt-BR-NicolauNeural` (мужской) `pt-BR-ValerioNeural` (мужской) `pt-BR-YaraNeural` (женский)

Пользовательский нейронный голос

Добавлена следующая поддержка языкового стандарта для пользовательского нейронного голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .

Добавлена поддержка языкового fr-BE стандарта с пользовательским нейронным голосом Pro.
Добавлена поддержка языкового es-ES стандарта с пользовательским нейронным голосом.

Выпуск за октябрь 2022 г.

Предварительно созданные нейронные голоса TTS (GA)

Теперь доступны следующие голоса. Дополнительные сведения см. в полном списке языков и голосовой связи .

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`eu-ES`	Баскский (Баскский)	`eu-ES-AinhoaNeural` (женский) `eu-ES-AnderNeural` (мужской)
`hy-AM`	Армянский (Армения)	`hy-AM-AnahitNeural` (женский) `hy-AM-HaykNeural` (мужской)

Предварительно созданные нейронные голоса TTS (предварительная версия)

Следующие голоса теперь доступны в общедоступной предварительной версии. Дополнительные сведения см. в полном списке языков и голосовой связи .

Языковой стандарт (BCP-47)	Язык	Голос речи в текст
`en-AU`	Английский (Австралия)	`en-AU-AnnetteNeural`(женщина) `en-AU-CarlyNeural`(женщина) `en-AU-DarrenNeural`(мужской) `en-AU-DuncanNeural`(мужской) `en-AU-ElsieNeural`(женщина) `en-AU-FreyaNeural`(женщина) `en-AU-JoanneNeural`(женщина) `en-AU-KenNeural`(мужской) `en-AU-KimNeural`(женщина) `en-AU-NeilNeural`(мужской) `en-AU-TimNeural`(мужской) `en-AU-TinaNeural`(женщина)
`es-ES`	испанский (Испания)	`es-ES-AbrilNeural`(женщина) `es-ES-AlvaroNeural`(мужской) `es-ES-ArnauNeural`(мужской) `es-ES-DarioNeural`(мужской) `es-ES-EliasNeural`(мужской) `es-ES-EstrellaNeural`(женщина) `es-ES-IreneNeural`(женщина) `es-ES-LaiaNeural`(женщина) `es-ES-LiaNeural`(женщина) `es-ES-NilNeural`(мужской) `es-ES-SaulNeural`(мужской) `es-ES-TeoNeural`(мужской) `es-ES-TrianaNeural`(женщина) `es-ES-VeraNeural`(женщина)
`ja-JP`	Японский (Япония)	`ja-JP-AoiNeural`(женщина) `ja-JP-DaichiNeural`(мужской) `ja-JP-MayuNeural`(женщина) `ja-JP-NaokiNeural`(мужской) `ja-JP-ShioriNeural`(женщина)
`ko-KR`	корейский (Корея)	`ko-KR-BongJinNeural`(мужской) `ko-KR-GookMinNeural`(мужской) `ko-KR-JiMinNeural`(женщина) `ko-KR-SeoHyeonNeural`(женщина) `ko-KR-SoonBokNeural`(женщина) `ko-KR-YuJinNeural`(женщина)
`wuu-CN`	Китайский (диалект у, упрощенное письмо)	`wuu-CN-XiaotongNeural` (женский) `wuu-CN-YunzheNeural` (мужской)
`yue-CN`	Китайский (кантонский диалект, упрощенное письмо)	`yue-CN-XiaoMinNeural` (женский) `yue-CN-YunSongNeural` (мужской)

Общие обновления голосовой связи TTS

Улучшено качество голосов fil-PH-AngeloNeural и fil-PH-BlessicaNeural голосов.
Правила нормализации текста обновляются для голосов с языковыми стандартами испанского es-CL языка (Чили) и uz-UZ узбекистанского (Узбекистана).
Добавлены английские буквы для голоса с sq-AL албанскими (Албания) и az-AZ азербайджанцами (Азербайджаном).
Улучшено произношение английского языка для zh-HK-WanLungNeural голоса.
Улучшен тон вопроса для nl-NL-MaartenNeural голоса и pt-BR-AntonioNeural голоса.
Добавлена поддержка тега для <lang ="en-US"> лучшего произношения на английском языке со следующими голосами: de-DE-ConradNeural, es-MX-JorgeNeuralfr-CA-SylvieNeuralfr-FR-DeniseNeuralfr-FR-HenriNeurales-ES-AlvaroNeurales-MX-DaliaNeuralde-DE-KatjaNeuralи . it-IT-DiegoNeuralit-IT-IsabellaNeural
Добавлена поддержка style="chat" тега со следующими голосами: en-GB-RyanNeural, es-MX-JorgeNeuralи it-IT-IsabellaNeural.
Добавлена поддержка тега style="cheerful" со следующими голосами: en-GB-RyanNeural, en-GB-SoniaNeural, , es-MX-JorgeNeural, fr-FR-DeniseNeuralfr-FR-HenriNeuralи it-IT-IsabellaNeural.
Добавлена поддержка тега style="sad" со следующими голосами: en-GB-SoniaNeuralfr-FR-DeniseNeural и fr-FR-HenriNeural.

Выпуск за сентябрь 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Все предварительно созданные нейронные голоса были обновлены до высокоточных голосов с частотой выборки 48 кбГц.

Выпуск за август 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Выпущены новые голоса в общедоступной предварительной версии:

Голоса для английского языка (США): en-US-AIGenerate1Neural и en-US-AIGenerate2Neural.
Голоса для китайских региональных языков: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuralи zh-CN-shandong-YunxiangNeural.

Дополнительные сведения см. в списке языков и голосовых данных.

Выпуск за июль 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Добавлены 5 новых голосов для китайского языка zh-CN (мандаринский диалект, упрощенное письмо) и 1 новый голос для английского языка en-US (США) в общедоступной предварительной версии. См. полный список языков и голосов.

Язык	Locale	пол;	Название голоса	Поддержка стиля
Китайский (мандаринский, упрощенное письмо)	`zh-CN`	Жен.	`zh-CN-XiaomengNeural`^Новый	Обычный, доступно несколько стилей голоса с использованием SSML
Китайский (мандаринский, упрощенное письмо)	`zh-CN`	Жен.	`zh-CN-XiaoyiNeural`^Новый	Обычный, доступно несколько стилей голоса с использованием SSML
Китайский (мандаринский, упрощенное письмо)	`zh-CN`	Жен.	`zh-CN-XiaozhenNeural`^Новый	Обычный, доступно несколько стилей голоса с использованием SSML
Китайский (мандаринский, упрощенное письмо)	`zh-CN`	Муж.	`zh-CN-YunxiaNeural`^Новый	Обычный, доступно несколько стилей голоса с использованием SSML
Китайский (мандаринский, упрощенное письмо)	`zh-CN`	Муж.	`zh-CN-YunzeNeural`^Новый	Обычный, доступно несколько стилей голоса с использованием SSML
Английский (США)	`en-US`	Муж.	`en-US-RogerNeural`^Новый	Общие сведения

Поддерживаемые стили и роли для добавленных нейронных голосов.

Голосовая связь	стили.	Степень стиля	Роли
zh-CN-XiaomengNeural ^{Общедоступная предварительная версия}	`chat`	Поддерживается
zh-CN-XiaoyiNeural ^{Общедоступная предварительная версия}	`affectionate`, `angrycheerfuldisgruntledembarrassedfearfulgentlesadserious`	Поддерживается
zh-CN-XiaozhenNeural ^{Общедоступная предварительная версия}	`angry`, , `cheerfulfearfuldisgruntledsad`,`serious`	Поддерживается
zh-CN-YunxiaNeural ^{Общедоступная предварительная версия}	`angry`, , `calmcheerful`, `fearfulsad`	Поддерживается
zh-CN-YunzeNeural ^{Общедоступная предварительная версия}	`angry`, `calmcheerfuldepresseddisgruntleddocumentary-narrationfearfulsadserious`	Поддерживается	Поддерживается

Получение сведений о положении лица с помощью виземы

Добавлена поддержка фигур смешивания для управления движениями лица трехмерного персонажа, разработанного вами. Дополнительная информация представлена в статье Получение положение лица с помощью виземы.
SSML обновлен для поддержки элемента виземы. См. разметку синтеза речи.

Выпуск за июнь 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Добавлено 9 новых языков и вариантов нейронного текста для речи:

Язык	Locale	пол;	Название голоса	Поддержка стиля
Арабский (Ливан)	`ar-LB`	Жен.	`ar-LB-LaylaNeural`^Новый	Общие сведения
Арабский (Ливан)	`ar-LB`	Муж.	`ar-LB-RamiNeural`^Новый	Общие сведения
Арабский (Оман)	`ar-OM`	Жен.	`ar-OM-AyshaNeural`^Новый	Общие сведения
Арабский (Оман)	`ar-OM`	Муж.	`ar-OM-AbdullahNeural`^Новый	Общие сведения
Азербайджанский (Азербайджан)	`az-AZ`	Жен.	`az-AZ-BabekNeural`^Новый	Общие сведения
Азербайджанский (Азербайджан)	`az-AZ`	Муж.	`az-AZ-BanuNeural`^Новый	Общие сведения
Боснийский (Босния и Герцеговина)	`bs-BA`	Жен.	`bs-BA-VesnaNeural`^Новый	Общие сведения
Боснийский (Босния и Герцеговина)	`bs-BA`	Муж.	`bs-BA-GoranNeural`^Новый	Общие сведения
Грузинский (Грузия)	`ka-GE`	Жен.	`ka-GE-EkaNeural`^Новый	Общие сведения
Грузинский (Грузия)	`ka-GE`	Муж.	`ka-GE-GiorgiNeural`^Новый	Общие сведения
Монгольский (Монголия)	`mn-MN`	Жен.	`mn-MN-YesuiNeural`^Новый	Общие сведения
Монгольский (Монголия)	`mn-MN`	Муж.	`mn-MN-BataaNeural`^Новый	Общие сведения
Непальский (Непал)	`ne-NP`	Жен.	`ne-NP-HemkalaNeural`^Новый	Общие сведения
Непальский (Непал)	`ne-NP`	Муж.	`ne-NP-SagarNeural`^Новый	Общие сведения
Албанский (Албания)	`sq-AL`	Жен.	`sq-AL-AnilaNeural`^Новый	Общие сведения
Албанский (Албания)	`sq-AL`	Муж.	`sq-AL-IlirNeural`^Новый	Общие сведения
Тамильский (Малайзия)	`ta-MY`	Жен.	`ta-MY-KaniNeural`^Новый	Общие сведения
Тамильский (Малайзия)	`ta-MY`	Муж.	`ta-MY-SuryaNeural`^Новый	Общие сведения

Стали общедоступными 36 голосов из общедоступной предварительной версии для en-GB английского (Соединенное Королевство), fr-FR французского (Франция) и de-DE немецкого (Германия):

Язык	Locale	пол;	Название голоса	Поддержка стиля
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-AbbiNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-BellaNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-HollieNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-MaisieNeural`	Общий, детский голос
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-OliviaNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-SoniaNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-AlfieNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-ElliotNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-EthanNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-NoahNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-OliverNeural`	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-ThomasNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-BrigitteNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-CelesteNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-CoralieNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-EloiseNeural`	Общий, детский голос
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-JacquelineNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-JosephineNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-YvetteNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-AlainNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-ClaudeNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-JeromeNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-MauriceNeural`	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-YvesNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-AmalaNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-ElkeNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-GiselaNeural`	Общий, детский голос
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-KlarissaNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-LouisaNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-MajaNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-TanjaNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-BerndNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-ChristophNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KasperNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KillianNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KlausNeural`	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-RalfNeural`	Общие сведения

Добавлены 40 новых голосов для es-MX испанского (Мексико), it-IT итальянского (Италия), pt-BR португальского (Бразилия) и два акцента для zh-CN китайского (мандаринский, упрощенный) в общедоступной предварительной версии:

Язык	Locale	пол;	Название голоса	Поддержка стиля
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-BeatrizNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-CarlotaNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-NuriaNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-RenataNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-LarissaNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-CandelaNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Жен.	`es-MX-MarinaNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-FiammaNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-IrmaNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-FabiolaNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-PalmiraNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-ImeldaNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Жен.	`it-IT-PierinaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-ElzaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-ManuelaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-BrendaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-LeilaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-YaraNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-GiovannaNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Жен.	`pt-BR-LeticiaNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-CecilioNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-LibertoNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-LucianoNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-PelayoNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-YagoNeural`^Новый	Общие сведения
Испанский (Мексика)	`es-MX`	Муж.	`es-MX-GerardoNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-BenignoNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-CataldoNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-LisandroNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-CalimeroNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-RinaldoNeural`^Новый	Общие сведения
Итальянский (Италия)	`it-IT`	Муж.	`it-IT-GianniNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-DonatoNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-HumbertoNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-FabioNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-JulioNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-ValerioNeural`^Новый	Общие сведения
Португальский (Бразилия)	`pt-BR`	Муж.	`pt-BR-NicolauNeural`^Новый	Общие сведения
Китайский (мандаринский, упрощенное письмо)	`zh-CN-sichuan`	Муж.	`zh-CN-sichuan-YunxiSichuanNeural`^Новый	Общий, сычуаньский акцент
Китайский (мандаринский, упрощенное письмо)	`zh-CN-liaoning`	Жен.	`zh-CN-liaoning-XiaobeiNeural`^Новый	Общий, ляонинский акцент

Оптимизированное качество для en-SG-LunaNeural и en-SG-WayneNeural
Поддержка вывода в 48 кГц для общедоступной предварительной версии с en-US-JennyNeural, en-US-AriaNeural и zh-CN-XiaoxiaoNeural

Пользовательский нейронный голос

Включено для устранения проблем с данными в сети. Узнайте больше о том, как устранить проблемы с данными в Speech Studio.
Добавлена версия инструкций обучения. Узнайте больше о выборе версии инструкций обучения для вашей голосовой модели.

Средство создания аудиосодержимого

Добавлена поддержка разбиения на страницы.
Включена глобальная сортировка по имени, типу файла и времени обновления на странице рабочего файла.

Выпуск за май 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Выпущено 5 новых голосов в общедоступной предварительной версии с несколькими стилями, чтобы предоставить больше вариантов для американского английского. См. полный список языков и голосов.
Поддержка этих новых стилей (Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified и Whispering) в общедоступной предварительной версии для en-US-AriaNeural.
Поддержка этих новых стилей (Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified и Whispering) в общедоступной предварительной версии для en-US-GuyNeural и en-US-JennyNeural.
Поддержка этих новых стилей (Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified и Whispering) в общедоступной предварительной версии для en-US-SaraNeural. См. сведения о стилях и ролях голоса.
Выпущены новые голоса zh-CN-YunjianNeural, zh-CN-YunhaoNeural и zh-CN-YunfengNeural в общедоступной предварительной версии. См. полный список языков и голосов.
Добавлена поддержка двух новых стилей sports-commentary и sports-commentary-excited в общедоступной предварительной версии для zh-CN-YunjianNeural. См. сведения о стилях и ролях голоса.
Добавлена поддержка нового стиля advertisement-upbeat в общедоступной предварительной версии для zh-CN-YunhaoNeural. См. сведения о стилях и ролях голоса.
Стили cheerful и sad для fr-FR-DeniseNeural являются общедоступными во всех регионах.
Обновлена версия SSML для поддержки элементов MathML для голосов en-US и en-AU. Дополнительные сведения см. в статье Разметка синтеза речи.

Пользовательский нейронный голос

Включена отмена обучения во время обучения голосовой модели. Узнайте больше об отмене обучения.
Включено клонирование модели (переименование голосовой модели). Узнайте больше о переименовании голосовой модели.
Включена проверка голосовой модели путем добавления собственного сценария теста. Узнайте больше об отправке сценария теста.
Включено для обновления версии подсистемы для голосовой модели. Узнайте больше об обновлении версии подсистемы модели.
Реализована поддержка дополнительных регионов обучения. См. сведения о поддержке регионов.
Поддерживается 10 языковых стандартов для пользовательского lite нейронного голоса (предварительная версия). См. сведения о поддержке языков.

Средство создания аудиосодержимого

Включена возможность опробовать средство "Создание аудиосодержимого" без входа.
Улучшен макет для корректировки фонем.
Повышена производительность: указано максимальное число (200) файлов, которые будут отправляться одновременно.
Повышена производительность: указан максимальный уровень глубины каталога (5 уровней).

Выпуск за март 2022 г.

Предварительно созданный нейронный голос для преобразования текста в речь

Добавлена поддержка в общедоступной предварительной версии для стилей Cheerfulи Sad с fr-FR-DeniseNeural. См. сведения о стилях и ролях голоса.
Выпущены отключенные контейнеры для предварительно созданных нейронных голосов для TTS в общедоступной версии. См. сведения об использовании контейнеров в отключенных средах.

Пользовательский нейронный голос

Поддерживается управление доступом на основе ролей в Azure Узнайте больше об управлении доступом на основе ролей в Speech Studio.
Поддерживаются частные конечные точки и конечные точки службы виртуальной сети. Узнайте больше об использовании частных конечных точек со службой "Речь".

Средство создания аудиосодержимого

Обновлены ограничения по размеру файла и параллелизма для ресурсов уровня "Бесплатный" (F0), чтобы обеспечить согласованность работы с API и пакетом SDK для службы "Речь". См. сведения о квотах и лимитах службы "Речь".

Выпуск за февраль 2022 г.

Пользовательский нейронный голос

Выпущен пользовательский нейронный голосовой режим в общедоступной предварительной версии. Узнайте больше о том, что такое пользовательская нейронная голосовая связь.
Расширена поддержка языков — до 49 языковых стандартов. См. сведения о поддержке языков.
Поддерживаются дополнительные регионы и центры обработки данных. См. сведения о поддержке регионов.

Средство создания аудиосодержимого

Удалено ограничение на длину выходных данных для загрузки звуковых файлов.

Выпуск за январь 2022 г.

Новые языки и голоса

Добавлены 10 новых языков и вариантов для нейронного текста в речь:

Язык	Locale	пол;	Название голоса	Поддержка стиля
Bengali (India)	`bn-IN`	Жен.	`bn-IN-TanishaaNeural`^Новый	Общие сведения
Bengali (India)	`bn-IN`	Муж.	`bn-IN-BashkarNeural`^Новый	Общие сведения
Исландский (Исландия)	`is-IS`	Жен.	`is-IS-GudrunNeural`^Новый	Общие сведения
Исландский (Исландия)	`is-IS`	Муж.	`is-IS-GunnarNeural`^Новый	Общие сведения
Каннада (Индия)	`kn-IN`	Жен.	`kn-IN-SapnaNeural`^Новый	Общие сведения
Каннада (Индия)	`kn-IN`	Муж.	`kn-IN-GaganNeural`^Новый	Общие сведения
Казахский (Казахстан)	`kk-KZ`	Жен.	`kk-KZ-AigulNeural`^Новый	Общие сведения
Казахский (Казахстан)	`kk-KZ`	Муж.	`kk-KZ-DauletNeural`^Новый	Общие сведения
Лаосский (Лаос)	`lo-LA`	Жен.	`lo-LA-KeomanyNeural`^Новый	Общие сведения
Лаосский (Лаос)	`lo-LA`	Муж.	`lo-LA-ChanthavongNeural`^Новый	Общие сведения
Македонский (Республика Северная Македония)	`mk-MK`	Жен.	`mk-MK-MarijaNeural`^Новый	Общие сведения
Македонский (Республика Северная Македония)	`mk-MK`	Муж.	`mk-MK-AleksandarNeural`^Новый	Общие сведения
Малайялам (Индия)	`ml-IN`	Жен.	`ml-IN-SobhanaNeural`^Новый	Общие сведения
Малайялам (Индия)	`ml-IN`	Муж.	`ml-IN-MidhunNeural`^Новый	Общие сведения
Пушту (Афганистан)	`ps-AF`	Жен.	`ps-AF-LatifaNeural`^Новый	Общие сведения
Пушту (Афганистан)	`ps-AF`	Муж.	`ps-AF-GulNawazNeural`^Новый	Общие сведения
Сербский (Сербия, кириллица)	`sr-RS`	Жен.	`sr-RS-SophieNeural`^Новый	Общие сведения
Сербский (Сербия, кириллица)	`sr-RS`	Муж.	`sr-RS-NicholasNeural`^Новый	Общие сведения
Синхала (Шри-Ланка)	`si-LK`	Жен.	`si-LK-ThiliniNeural`^Новый	Общие сведения
Синхала (Шри-Ланка)	`si-LK`	Муж.	`si-LK-SameeraNeural`^Новый	Общие сведения

Полный список доступных голосов см. в разделе Поддерживаемые языки.

Новые голоса в предварительной версии

Добавлены новые голоса для en-GB, fr-FR и de-DE в предварительной версии:

Язык	Locale	пол;	Название голоса	Поддержка стиля
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-AbbiNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-BellaNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-HollieNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Жен.	`en-GB-OliviaNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Девочка	`en-GB-MaisieNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-AlfieNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-ElliotNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-EthanNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-NoahNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-OliverNeural`^Новый	Общие сведения
Английский (Великобритания)	`en-GB`	Муж.	`en-GB-ThomasNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-BrigitteNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-CelesteNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-CoralieNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-JacquelineNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-JosephineNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Жен.	`fr-FR-YvetteNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Девочка	`fr-FR-EloiseNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-AlainNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-ClaudeNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-JeromeNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-MauriceNeural`^Новый	Общие сведения
Французский (Франция)	`fr-FR`	Муж.	`fr-FR-YvesNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-AmalaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-ElkeNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-KlarissaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-LouisaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-MajaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Жен.	`de-DE-TanjaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Девочка	`de-DE-GiselaNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-BerndNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-ChristophNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KasperNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KillianNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-KlausNeural`^Новый	Общие сведения
Немецкий (Германия)	`de-DE`	Муж.	`de-DE-RalfNeural`^Новый	Общие сведения

Полный список доступных голосов см. в разделе Поддерживаемые языки.

Точность произношения

Улучшено произношение слов на английском языке для всех голосов he-IL.
Улучшена точность произношения на уровне слов для cs-CZ и da-DK.
Улучшена обработка арабских диакритических знаков и ивритского никуда.
Улучшено чтение сущностей для ja-JP

Speech Studio

Пользовательский нейронный голос: включено дополнительное тестирование модели с помощью пакетного API (длинный АУДИО API)
Создание аудиосодержимого: добавлены дополнительные форматы вывода.

Выпуск за октябрь 2021 г.

Новые языки и голоса

Добавлены 49 новых языков и 98 голосов для нейронного текста для речи:

Адри в af-ZA Afrikaans (Южная Африка), Виллем в af-ZA Afrikaans (Южная Африка), Мекдес в Амхарике (Эфиопия), Амеха в am-ETam-ET Амхарике (Эфиопия), Фатима на ar-AE арабском языке (Объединенные Арабские Эмираты), Хамдан в ar-AE Арабский (Объединенные Арабские Эмираты), Лайла на ar-BH арабском (Бахрейне), Али на арабском (Бахрейне), Мина на ar-BH арабском (Алжире), Ismael на ar-DZar-DZ арабском (Алжире), Рана ar-IQ на арабском (Ираке), Бассель ar-IQ на арабском (Ираке), Сана на ar-JO арабском языке (Иордания) Taim на ar-JO арабском (Иордании), Нура на ar-KW арабском (Кувейте), Фахед на ar-KW арабском (Кувейте), Иман на ar-LY арабском (Ливия), Омар ar-LY на арабском (Ливия), Муна ar-MA на арабском (Марокко), Джамал ar-MA на арабском (Марокко), Амаль ar-QA на арабском (Катаре), Моаз ar-QA на арабском (Катаре), Амани на арабском (Сирия), Лайт на арабском (Сирия ar-SYar-SY), Рем ar-TN на арабском (Тунисе), Хейди на арабском (Тунисеar-TN), Мэриам ar-YE на арабском (Йемене) Салех на ar-YE арабском (йеменском), Набанита в Бангла (Бангладеш), Прадеп в bn-BDbn-BD Бангла (Бангладеш), Асилия на en-KE английском (Кении), Чилимба en-KE на английском (Кении), Эзинне en-NG на английском (Нигерия), Абео en-NG на английском (Нигерия), Имани en-TZ на английском (Танзания), Элиму на английском (Танзания), София es-BO на испанском (Боливии), Марсело es-BO на испанском (Боливии), Каталина es-CL на испанском (Чили), Лоренцо на en-TZ испанском (Чили), Лоренцо es-CL на испанском (Чили), Марии в es-CR Испанский (Коста-Рика), Хуан на es-CR испанском (Коста-Рике), Белкис на es-CU испанском (Кубе), Мануэль на испанском (Кубе), Рамона на es-DOes-CU испанском (Доминиканской Республике), Эмилио es-DO в испанском (Доминиканская Республика), Андреа es-EC в испанском (Эквадоре), Луисе es-EC в испанском (Эквадоре), Тереза в es-GQ испанском (Экваториальная Гвинея), Хавьере на es-GQ испанском (Гвинее), es-GT Марта в испанском (Гватемале), Андреа es-GT в испанском (Гватемале), Карла в es-HN Испанский (Гондурас), Карлос на es-HN испанском (Гондурасе), Yolanda на es-NI испанском (Никарагуа), Федерико на испанском (Никарагуа), Маргарита es-PA на es-NI испанском (Панаме), Роберто es-PA в испанском (Панаме), Камила es-PE на испанском (Перу), Алекс в испанском (Перу), Карина es-PR на испанском (Пуэрто-Рико), Виктор es-PE в es-PR испанском (Пуэрто-Рико), Таня es-PY на испанском (Парагвае), Марио es-PY на испанском (Парагвае), Лорена es-SV на испанском (Сальвадоре), Родриго в es-SV Испанский (Сальвадор), Валентина на испанском (Уругвае), Матео на es-UY испанском (Уругвае), Паола на es-VE испанском (Венесуэле), Себастиан на es-VE испанском (Венесуэле), Диларе fa-IR в es-UY Персидском (Иране), Фарид в fa-IR Персидском (Иране), Блесика fil-PH в Филиппинах (Филиппины), Анджело (fil-PHФилиппины), Сабела в gl-ES Галициане, Рой в gl-ES Галисиане, Сити в jv-ID Javanese (Индонезия), Димас в Javanese (Индонезия), Sreymom в jv-ID Кхмере (Камбоджа), Писет в km-KHkm-KH Кхмер (Камбоджа), Нилар в my-MM Бирмес (Мьянма), Тира в Бирмазе (Мьянма), Убакс в my-MM Сомали (Сомали), Мууз в so-SO Сомали (Сомали), Тути в so-SOsu-ID Санданезе (Индонезия), Джаджанг в su-ID Санданезе (Индонезия), Рехема в sw-TZ Сухайли (Танзания), Дауд в sw-TZ Суахили (Танзания), Сараня в ta-LK Тамиле (Шри-Ланка), Кумар в Тамиле (Шри-Ланка), Венба в ta-LK Тамиле (Сингапур), Анбу ta-SG в ta-SG Тамиле (Сингапуре), Гуль ur-IN в Урду (Индия), Салман в ur-IN Урду (Индия) Мадина в uz-UZ Узбекистане (Узбекистан), Сардор в uz-UZ Узбекистане , Тандо в zu-ZA Зулу (Южная Африка), Фемба в zu-ZA Зулу (Южная Африка).

Выпуск за сентябрь 2021 г.

Новый голос чат-бота в en-US английском (США): Sara — молодая женщина, которая разговаривает более непринужденно и лучше всего подходит для сценариев использования чат-бота.
Добавлены новые стили для ja-JP японский, голос Nanami: теперь доступны три новых стиля с Nanami: "Общение в чате/Служба поддержки клиентов/Веселый".
Общее улучшение произношения: Ardi в id-ID, Premwadee в th-TH, Christel в da-DK, HoaiMy и NamMinh в vi-VN.
Два новых голоса в zh-CN китайском (Mandarin, Китай) в предварительной версии: Xiaochen и Xiaoyan, оптимизированы для спонтанной речи и сценариев обслуживания клиентов.

Выпуск за июль 2021 г.

Нейронный текст для обновления речи

Сокращение числа ошибок произношения на иврите на 20 %.

Обновления Speech Studio

Настраиваемый нейронный голос: обновлен конвейер обучения до UniTTSv3, с помощью которого качество модели улучшается, а время обучения уменьшается на 50 % для акустических моделей.
Создание аудиосодержимого. Исправлена проблема производительности "Экспорт" и ошибка при выборе пользовательского нейронного голоса.

Выпуск за июнь 2021 г.

Обновления Speech Studio

Пользовательский нейронный голос: настраиваемое обучение нейронных голосов, расширенное для поддержки юго-восточной Азии. Выпущены новые возможности для поддержки проверки состояния в ходе отправки данных.
Создание аудиосодержимого. Выпущена новая возможность для поддержки пользовательского словаря. С помощью этой возможности пользователи могут легко создавать файлы словарей и определять пользовательское произношение для своих выходных аудиоданных.

Выпуск за май 2021 г.

Новые языки и голоса добавлены для нейронного TTS

Введено десять новых языков — в список нейронных языков TTS добавлено 20 новых голосов в 10 новых языковых стандартах: Ян на en-HK английском (Гонконг, САР), Сэм на en-HK английском (Гонконг, САР), Молли на en-NZ английском (Новая Зеландия), Митчелл на en-NZ английском (Новая Зеландия), Луна на en-SG английском (Сингапур), Уэйн на en-SG английском (Сингапур), Лия на en-ZA английском (Южная Африка), Люк на en-ZA английском (Южная Африка), Дхвани в gu-IN Гуджарати (Индия), Ниранджан в gu-IN Гуджарати (Индия), Аарохи в mr-IN маратхи (Индия), Манохар в mr-IN маратхи (Индия), Елена на es-AR испанском (Аргентина), Томас на es-AR испанском (Аргентина), Саломея на es-CO испанском (Колумбия), Гонсало на es-CO испанском (Колумбия), Палома на es-US испанском (США), Алонсо на es-US испанском (США), Зури на sw-KE суахили (Кения), Рафики на sw-KE суахили (Кения).
Одиннадцать новых голосовых моделей en-US в предварительной версии — 11 новых голосовых моделей en-US в предварительной версии добавлены в американский английский: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Пять общедоступных китайских (мандаринский диалект, упрощенное письмо) zh-CN голосовых моделей — 5 китайских голосовых моделей (мандаринский диалект, упрощенное письмо) изменены с предварительной версии на общедоступную. Это Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Теперь эти голосовые модели доступны во всех регионах. Модель Yunxi добавлена с новым "помощником", подходящим для чат-ботов и голосовых агентов. Голосовые стили Xiaomo более естественные и популярные.

Выпуск за апрель 2021 г.

Нейронный текст для речи доступен в 21 регионах

Добавлено двенадцать новых регионов: нейронный текст для речи теперь доступен в этих новых 12 регионах: Japan East, Japan West, . West US 2West USKorea CentralNorth Central USNorth EuropeSouth Central USSoutheast AsiaUK Southwest Central USWest Europe Полный список 21 поддерживаемых регионов см. здесь.

Выпуск за март 2021 г.

Новые языки и голоса добавлены для нейронного TTS

Введены шесть новых языков — 12 новых голосов в 6 новых языковых стандартах добавлены в список языков нейронного TTS: Nia в cy-GB валлийском (Соединенное Королевство), Aled в cy-GB валлийском (Соединенное Королевство), Rosa в en-PH английском (Филиппины), James в en-PH английском (Филиппины), Charline во fr-BE французском (Бельгия), Gerard во fr-BE французском (Бельгия), Dena nl-BE в голландском (Бельгия), Arnaud в nl-BE голландском (Бельгия), Polina uk-UA в украинском (Украина), Ostap в uk-UA украинском (Украина), Uzma в ur-PK урду (Пакистан), Asad в ur-PK урду (Пакистан).
Пять языков от предварительной версии до GA - 10 голосов в 5 языковых стандартах, представленных в ноябре, являются GA: Kert в Эстонии (Эстония), Колм ga-IE в Ирландской (Ирландия), Nils lv-LV в et-EE Латышском (Латвии), Леонас в lt-LT Литве (Литва), Джозеф в mt-MT Мальте (Мальта).
Добавлен новый мужской голос для французского языка (Канада) — новый голос Antoine доступен для fr-CA французского языка (Канада).
Совершенствование качества — сокращение частоты ошибок произношения: hu-HU в венгерском — на 48,17 %, nb-NO в норвежском — на 52,76 %, nl-NL в голландском (Нидерланды) — на 22,11 %.

На момент этого выпуска поддерживается в общей сложности 142 нейронных голоса в 60 языках/языковых стандартах. Также более 70 стандартных голосов доступны в 49 языках/языковых стандартах. Полный список см. в разделе Поддержка языков.

Получение событий расположения лица для анимации символов

Нейронный текст для речи теперь включает событие viseme. События viseme позволяют пользователям получить расположения лица и синтезированную речь. Viseme можно использовать для управления перемещениями двух- и трехмерной моделей аватара, которые полностью соответствуют движениям рта синтезированной речи. В настоящее время события viseme доступны только для голосовой модели en-US-AriaNeural.

Добавление элемента закладки в языке разметки синтеза речи (SSML)

Элемент закладки дает возможность вставлять пользовательские маркеры в SSML, чтобы сформировать смещение каждого маркера в звуковом потоке. Его можно использовать для ссылки на определенное место в тексте или последовательности тегов.

Выпуск за февраль 2021 г.

Настраиваемая нейронная голосовая общедоступная версия

Пользовательский нейронный голос в феврале на 13 языках: китайский (Мандарин, упрощенное письмо), английский (Австралия), английский (Индия), английский (Соединенное Королевство), английский (США), французский (Канада), французский (Канада), французский (Франция), немецкий (Германия), итальянский (Италия), японский (Япония), корейский (Корея), португальский (Бразилия), испанский (Мексика) и испанский (Испания). Узнайте больше о том, что такое пользовательский нейронный голос и как использовать его ответственно. Для пользовательской функции нейронной голосовой связи требуется регистрация, и корпорация Майкрософт может ограничить доступ на основе критериев соответствия корпорации Майкрософт. См. дополнительные сведения об ограничениях доступа.

Выпуск за декабрь 2020 г.

Новые нейронные голоса в общедоступной версии и предварительной версии

Выпущен 51 новый голос в общей сложности для 129 нейронных голосов и 54 языков/языковых стандартов:

46 новых голосов в языковых стандартах GA: Шакир на ar-EG арабском (Египте), Хаме в ar-SA арабском (Саудовская Аравия), Борислав в bg-BG Болгарии (Болгария), Джоана в ca-ES каталонском, Антонин в cs-CZ Чехии (Чехия), Jeppe в da-DK датском (Дании), Джонас на de-AT немецком (Австрия), январь в de-CH немецком (Швейцария), Несторос el-GR в греческом (Греция), Лиам en-CA на английском (Канада), Коннор en-IE на английском (Ирландия), Махур en-IN в Хинди (Индия), Мохан в en-IN Телугу (Индия) Prabhat на en-IN английском (Индия), Valluvar в en-IN Тамиле (Индия), Энрик в Каталоне, Керт в Эстонии( Эстония), Харри fi-FI в et-EE Финляндии, Селма fi-FI в Финляндии, Fabrice fr-CH на es-ES французском (Швейцария), Колм ga-IE в ирландском (Ирландия), Avri на he-IL иврите (Израиль), Srecko hr-HR в хорватском (Хорватия), Тамас в Венгерском (Венгрия), Гадис id-ID в Индонезии (Индонезияlt-LT), Леонас hu-HU в Литве (Литва), Нилс в lv-LV Латышский (Латвия), Осман в ms-MY Малаи (Малайзия), Джозеф в mt-MT Мальте (Мальта), Финн на nb-NO норвежском языке, Bokmål (Норвегия), Перниль в nb-NO норвежском, Букмоле (Норвегия), Фенна в Нидерланде (Нидерланды), Маартен в Нидерланде (Нидерланды), Агнешка pl-PL в nl-NL Польском (Польша), Марек в pl-PL Польском (Польша), Дуарте pt-BR на nl-NL португальском (Бразилия), Ракель на португальском (Потугале), Эмиль в ro-ROpt-PT Румын (Румыния), Дмитрий ru-RU в Русском (Россия), Вялы ru-RU в Русский (Россия), Лукас в Словацком (Словакия), Рок в sk-SKsl-SI Словении (Словения), Маттиас в Шведском (Швеция), Софи sv-SE в sv-SE Шведском (Швеция), Niwat th-TH в Тайском (Таиланде), Ахмет в tr-TR турецком (Türkiye), NamMinh во vi-VN Вьетнаме (Вьетнам), HsiaoChen в Тайване Мандарин (Тайвань), YunJhe в zh-TW Тайване Мандарин (Тайвань), HiuMaan в zh-TWzh-HK китайском кантонском (Гонконге специальный Администратор истративный регион), WanLung в zh-HK Китайский кантонский (Гонконг САР).
5 новых голосов в предварительных версиях : Kert в et-EE эстонском (Эстония), Colm в ga-IE ирландском (Ирландия), Nils в lv-LV латышском (Латвия), Leonas в lt-LT литовском (Литва), Joseph в mt-MT мальтийском (Мальта).

На момент этого выпуска поддерживается в общей сложности 129 нейронных голосов в 54 языках/языковых стандартах. Также более 70 стандартных голосов доступны в 49 языках/языковых стандартах. Полный список см. в разделе Поддержка языков.

Обновления для инструмента создания аудиосодержимого

Улучшен пользовательский интерфейс выбора голоса с категориями и подробными описаниями голоса.
Включена настройка интонаций для всех нейронных голосов на разных языках.
Автоматизирована локализация пользовательского интерфейса на основе языка браузера.
Включены StyleDegree элементов управления для всех zh-CN нейронных голосов. Изучите новые возможности в инструменте создания аудиосодержимого.

Обновления для голосов zh-CN

Обновлены все zh-CN нейронных голосов для поддержки английской речи.
Включены все zh-CN нейронных голосов для поддержки корректировки интонации. SSML или инструмент создания аудиосодержимого можно использовать для настройки оптимальной интонации.
Обновлены все zh-CN нейронных голосов с несколькими стилями для поддержки элемента управления StyleDegree. Интенсивность распознавания эмоций (нежесткую или строгую) можно настраивать.
Обновлено zh-CN-YunyeNeural для поддержки нескольких стилей, которые могут демонстрировать различные эмоции.

Выпуск за ноябрь 2020 г.

Новые голоса, языки и региональные стандарты в предварительной версии

В портфеле речи представлены пять новых голосов и языков . Grace в мальтийском (Мальта), Ona в литовском (Литва), Anu в эстонском (Эстония), Orla в ирландском (Ирландия) и Everita в латышском (Латвия).
Поддерживаются пять новых zh-CN голосов с несколькими стилями и ролями: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan и Yunxi.

Эти голоса доступны в общедоступной предварительной версии в трех регионах Azure: EastUS, SouthEastAsia и WestEurope.

Нейронный текст для общедоступной службы "Контейнер речи"

С помощью нейронного текста в контейнер речи разработчики могут выполнять синтез речи с самыми естественными цифровыми голосами в собственной среде для конкретных требований к безопасности и управлению данными. Изучите процедуру установки Контейнеров распознавания речи.

новые функции;

Пользовательский голос: пользователи могут копировать голосовую модель из одного региона в другой; поддерживаемую приостановку и возобновление работы конечной точки. Перейдите на портал здесь.
Поддержка тега тишины SSML.
Общие усовершенствования качества голоса в TTS: улучшена точность произношения на уровне слов в nb-NO. Сокращены на 53 % ошибки при произношении.

Дополнительные сведения см. в этом техническом блоге.

Выпуск за октябрь 2020 г.

новые функции;

Jenny поддерживает новый стиль newscast. См. раздел Использование стилей речи в SSML.
Нейронные голоса обновлены до уровня вокодера HiFiNet с повышенной звуковой точностью и скоростью синтеза. Это удобно клиентам, сценарии которых используют звуковые или длительные взаимодействия Hi-Fi, включая видеодубляж, аудиокниги и учебные онлайн-материалы. Узнайте больше об истории создания и прослушайте голосовые примеры в блоге технического сообщества
Пользовательская голосовая и аудиоконтентная студия создания контента, локализованная на 17 языковых стандартов. Пользователи легко могут переключиться на локальный язык интерфейса для дополнительного удобства.
Создание аудиосодержимого: добавлен элемент управления "Уровень стиля" для XiaoxiaoNeural; улучшена настроенная функция прерывания: в нее включены инкрементальные прерывания по 50 мс.

Усовершенствования общего качества голоса в TTS

Улучшена точность произношения на уровне слов в pl-PL (сокращение частоты ошибок составило 51 %) и в fi-FI (сокращение частоты ошибок составило 58 %).
Улучшена функция чтения отдельных слов ja-JP для сценария словаря. Сокращены на 80 % ошибки произношения.
zh-CN-XiaoxiaoNeural: улучшена тональность и качество голоса в стилях "Служба поддержки клиентов/Новостная сводка/Веселый/Сердитый".
zh-CN: в Erhua улучшены произношение и легкий тон и оптимизировано интонационное пространство, что значительно улучшает внятность.

Выпуск за сентябрь 2020 г.

Новые возможности

Нейронный текст для речи
- Расширение для поддержки 18 новых языков/языковых стандартов. Это болгарский, чешский, немецкий (Австрия), немецкий (Швейцария), греческий, английский (Ирландия), французский (Швейцария), иврит, хорватский, венгерский, индонезийский, малайский, румынский, словацкий, словенский, тамильский, телугу и вьетнамский.
- Выпущено 14 новых голосов, чтобы расширить спектр существующих языков. См. полный список языков и голосов.
- Новые стили речи для голосов en-US и zh-CN. Jenny, новый голос на английском языке (US), поддерживает стили чат-бота, службы обслуживания клиентов и помощника. 10 новых стилей речи доступны в голосе zh-CN, XiaoXiao. Также нейронный голос XiaoXiao поддерживает настройку StyleDegree. См. раздел Использование стилей речи в SSML.
Контейнеры: нейронный текст для преобразования речи в контейнер, выпущенный в общедоступной предварительной версии с 16 голосами, доступными на 14 языках. Дополнительные сведения о развертывании контейнеров речи для нейронного текста в речь

Прочитайте полное описание обновлений TTS для Ignite 2020.

Выпуск за август 2020 г.

Новые возможности

Нейронный текст для речи: новый стиль речи для en-US Aria voice. При чтении новостей AriaNeural может звучать как диктор. Стиль "Новостной формальный" звучит более серьезно, стиль "Новостной обычный" более расслабленный и неформальный. См. раздел Использование стилей речи в SSML.
Пользовательский голос: новая функция выпускается для автоматического проверка качества обучающих данных. При отправке данных система проверяет различные характеристики звуковых и транскрибированных данных и автоматически устраняет или отфильтровывает проблемы, чтобы улучшить качество голосовой модели. Помимо формата аудио и сценария, это касается громкости звука, уровня шума, точности произношения, совмещения речи с нормализованным текстом и фрагментов тишины.
Создание аудиосодержимого: набор новых функций, обеспечивающий расширенные возможности голосовой настройки и управления звуком.
- Произношение: функция настройки произношения обновлена до новейшего набора фонем. Можно выбрать нужный элемент фонемы из библиотеки и уточнить произношение выбранных слов.
- Загрузка: функция "Загрузка"/"Экспорт" аудио улучшена для поддержки генерирования аудио по абзацам. Содержимое можно редактировать в том же файле/SSML, создавая несколько аудиовыходов. Также улучшена файловая структура функции "Загрузка". Теперь можно формировать все аудиофайлы в одной папке.
- Состояние задачи: улучшен процесс экспорта нескольких файлов. Ранее, если при экспорте нескольких файлов возникал сбой одного из файлов, происходил сбой всей задачи. Впредь остальные файлы будут успешно экспортироваться. Отчет о задаче дополнен более подробной и структурированной информацией. В журналах можно проверять все файлы. в которых имели место сбои, и теперь в отчет включаются предложения.
- Документация по SSML: ссылки на документы SSML помогают проверить правила использования всех функций настройки.
Обновлен API списка голосов, в него включены понятные пользователям отображаемые имена и стили речи, поддерживаемые для нейронных голосов.

Усовершенствования общего качества голоса в TTS

Уменьшен % ошибок произношения на уровне слов для ru-RU (на 56 % меньше ошибок) и sv-SE (на 49 % меньше ошибок).
На 40 % улучшено полифоническое чтение слов в en-US нейронных голосах. Примеры полифонических слов: read, live, content, record, object и т. д.
Улучшена естественность тона вопроса в fr-FR. МОС (средняя экспертная оценка разборчивости речи) выросла на + 0,28
Для указанных ниже голосов обновлены вокодеры, точность и общая эффективность выросли на 40 %.

Locale Голосовая связь

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Locale	Голосовая связь
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Исправления ошибок

Исправлено несколько ошибок с помощью средства создания аудиоконтентов
- Исправлена проблема автоматического обновления.
- Исправлены проблемы со стилями голоса в zh-CN в регионе Юго-Восточной Азии.
- Исправлена проблема стабильности, включая ошибку экспорта с тегом break и ошибки в пунктуации.

Выпуск за апрель 2024 г.

Речь в режиме реального времени с диариязацией (GA)

Речь в режиме реального времени к тексту с диариазацией теперь общедоступна.

Ознакомьтесь с кратким руководством по диаризации в режиме реального времени, чтобы узнать больше о том, как создавать речь в текстовых приложениях, использующих диаризацию, чтобы различать различных докладчиков, участвующих в беседе.

Обновление модели "Речь в текст"

Речь в режиме реального времени выпустила новые модели с двуязычными возможностями. Модель en-IN теперь поддерживает как английский, так и двуязычный сценарии и предлагает улучшенную точность. Арабские языковые стандарта (ar-AE, , ar-BH, ar-KWar-ILar-LBar-IQar-LYar-QAar-OMar-MAar-DZar-SAar-SYar-PS, ar-TN, ar-YE) теперь оснащены двуязычной поддержкой английского, расширенной точности и поддержки центра вызовов.

Пакетное транскрибирование запустило модели с новой архитектурой для es-ES, , fr-FRes-MX, , zh-CNja-JPko-KRpt-BRit-IT Эти модели значительно повышают удобочитаемость и распознавание сущностей.

Выпуск за март 2024 г.

Общедоступная версия whisper (GA)

Речь whisper к текстовой модели с помощью службы "Речь ИИ Azure" теперь общедоступна.

Ознакомьтесь с тем, что такое модель Whisper? Чтобы узнать больше об использовании службы "Речь ИИ Azure" и "Служба OpenAI Azure".

Выпуск за февраль 2024 г.

Оценка произношения

Оценка произношения речи теперь поддерживает 23 языка общедоступен (с 5 новыми языками), с 3 дополнительными языками, доступными в общедоступной предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.

Язык	Языковой стандарт (BCP-47)
Арабский (Египет)	`ar-EG`¹
Арабский (Саудовская Аравия)	`ar-SA`
Китайский (кантонский, традиционное письмо)	`zh-HK`¹
Китайский (мандаринский, упрощенное письмо)	`zh-CN`
нидерландский (Нидерланды)	`nl-NL`¹
Английский (Австралия)	`en-AU`
Английский (Канада)	`en-CA`
Английский (Индия)	`en-IN`
Английский (Великобритания)	`en-GB`
Английский (США)	`en-US`
Французский (Канада)	`fr-CA`
Французский (Франция)	`fr-FR`
Немецкий (Германия)	`de-DE`
Хинди (Индия)	`hi-IN`
Итальянский (Италия)	`it-IT`
Японский (Япония)	`ja-JP`
корейский (Корея)	`ko-KR`
Малайский (Малайзия)	`ms-MY`
Норвежский (букмол, Норвегия)	`nb-NO`
португальский (Бразилия)	`pt-BR`
Русский (Россия)	`ru-RU`
Испанский (Мексика)	`es-MX`
испанский (Испания)	`es-ES`
шведский (Швеция)	`sv-SE`
Тамильский (Индия)	`ta-IN`
Вьетнамский (Вьетнам)	`vi-VN`

¹ Язык находится в общедоступной предварительной версии для оценки произношения.

Список фраз

Добавлена поддержка списка фраз для следующих языков: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Выпуск за ноябрь 2023 г.

Знакомство с двуязычным моделированием речи!

Мы рады обнародовать новое дополнение к моделированию речи в реальном времени — двуязычное моделирование речи. Это значительное улучшение позволяет нашей модели речи легко поддерживать двуязычные языковые пары, такие как английский и испанский, а также английский и французский. Эта функция позволяет пользователям легко переключаться между языками во время взаимодействия в режиме реального времени, отмечая ключевой момент в нашей приверженности улучшению взаимодействия.

Основные моменты:

Двуязычная поддержка: с помощью нашего последнего выпуска пользователи могут легко переключаться между английским и испанским или между английским и французским во время взаимодействия с речью в режиме реального времени. Эта функция адаптирована для размещения двуязычных ораторов, которые часто переходили между этими двумя языками.
Расширенный пользовательский интерфейс: двуязычные докладчики, будь то на работе, в доме или в различных параметрах сообщества, будут находить эту функцию очень полезно. Способность модели понять и реагировать как на английский, так и испанский в реальном времени открывает новые возможности для эффективного и гибкого взаимодействия.

Практическое руководство.

Выберите es-US (испанский и английский) или fr-CA (французский и английский) при вызове API службы распознавания речи или попробуйте его в Speech Studio. Вы можете говорить на любом языке или смешивать их вместе— модель предназначена для динамической адаптации, обеспечивая точные и контекстные ответы на обоих языках.

Пришло время повысить уровень вашей коммуникационной игры с помощью нашего последнего выпуска функции — простой, многоязычный обмен данными на пальцах!

Обновление текстовых моделей преобразования речи в текст

Мы рады ввести значительное обновление моделей речи, обещая повышенную точность, улучшенную удобочитаемость и улучшенное распознавание сущностей. Это обновление обеспечивает надежную новую структуру, усиленную расширенным набором данных для обучения, обеспечивая заметное улучшение общей производительности. Она включает в себя недавно выпущенные модели для en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE и he-IL.

Основные особенности:

Улучшенная точность с новой структурой модели: переопределенная структура модели, в сочетании с более богатым набором обучающих данных, повышает уровень точности, обещая более точные выходные данные речи.
Улучшение удобочитаемости: наша последняя модель повышает удобочитаемость, повышая согласованность и ясность речевых материалов.
Расширенное распознавание сущностей: распознавание сущностей получает существенное обновление, что приводит к более точным и нюансам результатов.

Потенциальные последствия: Несмотря на эти достижения, важно иметь в виду потенциальные последствия:

Функция пользовательского времени ожидания молчания: пользователи используют пользовательское время ожидания молчания, особенно с низкими параметрами, может столкнуться с чрезмерной сегментацией и потенциальными упущениями однословных фраз.
Новая модель может столкнуться с проблемами совместимости с функцией префикса ключевых слов, и пользователям рекомендуется оценить ее производительность в конкретных приложениях.
Сокращение неблагополучности слов или фраз: пользователи могут заметить снижение количества слов или фраз, таких как "um" или "uh" в выходных данных речи.
Неточности в продолжительности метки времени слова: некоторые слова неблагополучности могут отображать неточности в продолжительности метки времени, требуя внимания в приложениях, зависящих от точного времени.
Дисперсию распределения оценки достоверности: пользователи, использующие оценки достоверности и связанные пороговые значения, должны учитывать потенциальные вариации распределения, требуя корректировки для оптимальной производительности.
Повышение точности функции списка фраз может повлиять на неправильное определение определенных фраз.

Мы рекомендуем вам изучить эти улучшения и рассмотреть потенциальные проблемы для простого перехода, и, как всегда, ваши отзывы играют важную роль в уточнении и продвижении наших услуг.

Оценка произношения

Оценка произношения речи теперь поддерживает 18 языков, доступных в общедоступной предварительной версии, с шестью другими языками. Дополнительные сведения см. в полном списке языков для оценки произношения.
Мы рады сообщить, что оценка произношения вводит новые функции, начиная с 1 ноября 2023 г.: Prosody, Грамматика, словарь и тема. Эти улучшения направлены на обеспечение еще более комплексного опыта обучения языка как для чтения, так и для оценки речи. Обновление до пакета SDK версии 1.35.0 или более поздней, чтобы узнать больше о том, как использовать оценку произношения и оценку произношения в Speech Studio.

Выпуск за сентябрь 2023 г.

Whisper public preview

Теперь служба "Речь ИИ Azure" поддерживает модель Whisper OpenAI с помощью API пакетной транскрибирования. Чтобы узнать больше, проверка руководства по созданию пакетной транскрибирования.

Примечание.

Служба Azure OpenAI также поддерживает модель Whisper OpenAI для преобразования речи в текст с синхронным REST API. Дополнительные сведения см. в кратком руководстве по проверка.

Общедоступная предварительная версия REST API преобразования речи в текст версии 3.2

Преобразование речи в текст REST API версии 3.2 доступно в предварительной версии. Речь в REST API версии 3.1 общедоступна. Речь в REST API версии 3.0 будет прекращена 1 апреля 2026 г. Дополнительные сведения см. в руководствах по миграции для преобразования речи в текст REST API версии 3.0 до версии 3.1 и версии 3.1 до версии 3.2 .

Выпуск за август 2023 г.

Новая речь в текстовых языковых стандартах:

Речь к тексту поддерживает два новых языковых стандарта, как показано в следующей таблице. Полный список языков см. здесь.

Локаль	Язык
`pa-IN`	Панджаби (Индия)
`ur-IN`	Урду (Индия)

Оценка произношения

Оценка произношения речи теперь поддерживает 3 дополнительных языка, доступных на английском языке (Канада), английском (Индия) и французском (Канада), а также на 3 дополнительных языках, доступных в предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.

Выпуск за май 2023 г.

Оценка произношения

Оценка произношения речи теперь поддерживает 3 дополнительных языка, доступных на немецком языке (Германия), японском (Японии) и испанском (Мексика), а также на 4 дополнительных языках, доступных в предварительной версии. Дополнительные сведения см. в полном списке языков для оценки произношения.
Теперь вы можете использовать стандартный уровень обязательств "Речь к тексту" для оценки произношения во всех общедоступных регионах. Если вы приобрели уровень обязательств для стандартной речи в текст, расходы на оценку произношения идет к достижению обязательства. См . ценовую категорию обязательств.

Выпуск за февраль 2023 г.

Оценка произношения

Оценка произношения речи теперь поддерживает 5 дополнительных языков, доступных на английском языке (Соединенное Королевство), английском (Австралия), французском (Франция), испанском (Испания) и китайском (Mandarin, упрощенном) с другими языками, доступными в предварительной версии.
Добавлены примеры кодов, демонстрирующих использование оценки произношения в режиме потоковой передачи в собственном приложении.
- C#: см . пример кода.
- C++: см . пример кода.
- java: см . пример кода.
- javascript: см . пример кода.
- Objective-C: см . пример кода.
- Python: см . пример кода.
- Swift: см . пример кода.

Настраиваемая речь

Для языковых стандартов добавлена de-AT поддержка аудио и транскрибирования с меткой человека.

Выпуск за январь 2023 г.

Настраиваемая речь

Добавлена поддержка аудио+ транскрибирования, помеченного человеком, для дополнительных языковых стандартов: ar-BH, ar-DZ, ar-EG, ar-MAar-SA, ar-TNar-YEи ja-JP.

Добавлена поддержка структурированной адаптации текста для языкового de-ATстандарта.

Выпуск за декабрь 2022 г.

Преобразование речи в текстовый REST API

Речь в тексте REST API версии 3.1 общедоступна. Версия 3.0 REST API преобразования речи в текст будет прекращена. Дополнительные сведения о переносе см. в руководстве.

Выпуск за октябрь 2022 г.

Новый языковой стандарт преобразования речи в текст

Добавлена поддержка Малаялам (Индия) с языковым стандартом ml-IN . Полный список языков приведен здесь.

Выпуск за июль 2022 г.

Новая речь в текстовых языковых стандартах:

Добавлены 7 новых языковых стандартов, как показано в следующей таблице. Полный список языков приведен здесь.

Локаль	Язык
`bs-BA`	Боснийский (Босния и Герцеговина)
`yue-CN`	Китайский (кантонский диалект, упрощенное письмо)
`zh-CN-sichuan`	Китайский (юго-западное мандаринское письмо, упрощенное письмо)
`wuu-CN`	Китайский (диалект у, упрощенное письмо)
`ps-AF`	Пушту (Афганистан)
`so-SO`	Сомали (Федеративная Республика Сомали)
`cy-GB`	Валлийский (Великобритания)

Выпуск за июнь 2022 г.

Новая речь в текстовых языковых стандартах:

Добавлены 10 новых языковых стандартов, как показано в следующей таблице. Полный список языков приведен здесь.

Локаль	Язык
`sq-AL`	Албанский (Албания)
`hy-AM`	Армянский (Армения)
`az-AZ`	Азербайджанский (Азербайджан)
`eu-ES`	Баскский (Баскский)
`gl-ES`	Галисийский
`ka-GE`	Грузинский (Грузия)
`it-CH`	Итальянский (Швейцария)
`kk-KZ`	Казахский (Казахстан)
`mn-MN`	Монгольский (Монголия)
`ne-NP`	Непальский (Непал)

Выпуск за апрель 2022 г.

Новая речь в текстовых языковых стандартах:

Ниже приведен список новых языковых стандартов. Полный список языков приведен здесь.

Локаль	Язык
`bn-IN`	Bengali (India)

Выпуск за январь 2022 г.

Новая речь в текстовых языковых стандартах:

Ниже приведен список новых языковых стандартов. Полный список языков приведен здесь.

Локаль	Язык
`af-ZA`	Африкаанс (Южная Африка)
`am-ET`	Амхарик (Эфиопия)
`de-CH`	Немецкий (Швейцария)
`fr-BE`	Французский (Бельгия)
`is-IS`	Исландский (Исландия)
`jv-ID`	Яванский (Индонезия)
`km-KH`	Кхмерский (Камбоджа)
`kn-IN`	Каннада (Индия)
`lo-LA`	Лаосский (Лаос)
`mk-MK`	Македонский (Северная Македония)
`my-MM`	Бирманский (Мьянма)
`nl-BE`	Нидерландский (Бельгия)
`si-LK`	Синхала (Шри-Ланка)
`sr-RS`	Сербский (Сербия)
`sw-TZ`	Суахили (Танзания)
`uk-UA`	Украинский (Украина)
`uz-UZ`	Узбекский (Узбекистан)
`zu-ZA`	Зулусский (ЮАР)

Выпуск за июль 2021 г.

Новая речь в текстовых языковых стандартах:

Ниже приведен список новых языковых стандартов. Полный список языков приведен здесь.

Локаль	Язык
`ar-DZ`	Арабский (Алжир)
`ar-LY`	Арабский (Ливия)
`ar-MA`	Арабский (Марокко)
`ar-TN`	Арабский (Тунис)
`ar-YE`	Арабский (Йемен)
`bg-BG`	Болгарский (Болгария)
`el-GR`	Греческий (Греция)
`et-EE`	Эстонский (Эстония)
`fa-IR`	Персидский (Иран)
`ga-IE`	Ирландский (Ирландия)
`hr-HR`	Хорватский (Хорватия)
`lt-LT`	Литовский (Литва)
`lv-LV`	Латышский (Латвия)
`mt-MT`	Мальтийский (Мальта)
`ro-RO`	Румынский (Румыния)
`sk-SK`	Словацкий (Словакия)
`sl-SI`	Словенский (Словения)
`sw-KE`	Суахили (Кения)

Выпуск за январь 2021 г.

Новая речь в текстовых языковых стандартах:

Ниже приведен список новых языковых стандартов. Полный список языков приведен здесь.

Локаль	Язык
`ar-AE`	Дубай (Объединенные Арабские Эмираты)
`ar-IL`	Арабский (Израиль)
`ar-IQ`	Арабский (Ирак)
`ar-OM`	Арабский (Оман)
`ar-PS`	Арабский (Палестинская Автономия)
`de-AT`	Немецкий (Австрия)
`en-GH`	Английский (Гана)
`en-KE`	Английский (Кения)
`en-NG`	Английский (Нигерия)
`en-TZ`	Английский (Танзания)
`es-GQ`	Испанский (Экваториальная Гвинея)
`fil-PH`	Филиппинский (Филиппины)
`fr-CH`	Французский (Швейцария)
`he-IL`	Иврит (Израиль)
`id-ID`	Индонезийский (Индонезия)
`ms-MY`	Малайский (Малайзия)
`vi-VN`	Вьетнамский (Вьетнам)

Выпуск за август 2020 г.

Новая речь в языковых стандартах текста:

Речь к тексту выпущена 26 новых языковых стандартов в августе: 2 европейских языков cs-CZ и 5 английских языков и hu-HU19 испанских языков, охватывающих большинство стран и регионов Южной Америки. Ниже приведен список новых языковых стандартов. Полный список языков приведен здесь.

Локаль	Язык
`cs-CZ`	Чешский (Чешская Республика)
`en-HK`	Английский (гонконгский специальный Администратор истативный регион)
`en-IE`	Английский (Ирландия)
`en-PH`	Английский (Филиппины)
`en-SG`	Английский (Сингапур)
`en-ZA`	Английский (Южная Африка)
`es-AR`	Испанский (Аргентина)
`es-BO`	Испанский (Боливия)
`es-CL`	Испанский (Чили)
`es-CO`	Испанский (Колумбия)
`es-CR`	Испанский (Коста-Рика)
`es-CU`	Испанский (Куба)
`es-DO`	Испанский (Доминиканская Республика)
`es-EC`	Испанский (Эквадор)
`es-GT`	Испанский (Гватемала)
`es-HN`	Испанский (Гондурас)
`es-NI`	Испанский (Никарагуа)
`es-PA`	Испанский (Панама)
`es-PE`	Испанский (Перу)
`es-PR`	Испанский (Пуэрто-Рико)
`es-PY`	Испанский (Парагвай)
`es-SV`	Испанский (Эль-Сальвадор)
`es-US`	Испанский (США)
`es-UY`	Испанский (Уругвай)
`es-VE`	Испанский (Венесуэла)
`hu-HU`	Венгерский (Венгрия)

Выпуск за февраль 2024 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 4.6.0
Речь в тексте 4.6.0
Нейронный текст для речи 3.1.0

Обновление речи до текстовых компонентов до последней версии. Обновите все es модели языковых стандартов до последней версии. Увеличьте буфер преобразования мультимедиа для преобразования речи в текстовые варианты использования.

Выпуск за ноябрь 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 4.5.0
Речь к тексту 4.5.0
Нейронный текст для речи 2.19.0

Выпуск за октябрь 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 4.4.0
Речь в тексте 4.4.0
Нейронный текст для речи 2.18.0

Исправьте множество проблем с уязвимостью высокого риска.

Удалите избыточные журналы в контейнерах.

Обновите внутренний компонент мультимедиа до последней версии.

Добавление поддержки голосовой связи en-IN-NeerjaNeural.

Выпуск за сентябрь 2023 г.

Добавьте поддержку последних версий модели:

Идентификация языка речи 1.12.0
Настраиваемая речь в тексте 4.3.0
Речь к тексту 4.3.0
Нейронный текст для речи 2.17.0

Обновление пользовательской речи до текста и речи до последней платформы.

Устранение проблем с уязвимостью.

Добавление поддержки голосовой связи ar-AE-FatimaNeural.

Выпуск за июль 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 4.1.0
Речь к тексту 4.1.0
Нейронный текст для речи 2.15.0

Исправлена проблема при выполнении речи в текстовый контейнер с помощью docker параметров подключения с локальными файлами пользовательской модели.

Исправлена проблема, которая в некоторых случаях RECOGNIZING событие не отображается в ответе через пакет SDK службы "Речь".

Устранение проблем с уязвимостью.

Выпуск за июнь 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 4.0.0
Речь в тексте 4.0.0
Нейронный текст для речи 2.14.0

Локальные изображения речи на текстовые изображения обновляются до .NET 6.0.

Обновление моделей отображения для языковых стандартов, включая en-us, ar-eg, ar-bh, ja-jpи ko-krмногое другое.

Обновите речь до компонента текстового контейнера, чтобы устранить проблемы с уязвимостью.

Добавление поддержки голосов языкового de-DE-AmalaNeuralстандарта ,de-AT-IngridNeuralde-AT-JonasNeural иen-US-JennyMultilingualNeural

Выпуск за май 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.14.0
Речь в тексте 3.14.0
Нейронный текст для речи 2.13.0

Исправлена проблема с препинанием he-IL

Устранение проблем с уязвимостью

Добавление нового языкового стандарта en-US-MichelleNeuralи es-MX-CandelaNeural

Выпуск за апрель 2023 г.

Обновления для системы безопасности

Устранение проблем с уязвимостью

Выпуск за март 2023 г.

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.12.0
Речь к тексту 3.12.0
Идентификация языка речи 1.11.0
Нейронный текст для речи 2.11.0

Устранение проблем с уязвимостью

Исправлена tr-TR проблема с заглавной буквой

Обновление моделей отображения речи до текстовых en-US моделей

Добавление поддержки предварительно созданного нейронного текста нейронного текста в голосовой стандарт речи ar-AE-HamdanNeural

Выпуск за февраль 2023 г.

Новые версии контейнеров

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.11.0
Речь к тексту 3.11.0
Нейронный текст для речи 2.10.0

Устранение проблем с уязвимостью

Регулярное обновление моделей речи

Добавьте новые языковые стандарты Abraic:

ar-IL
ar-PS

Обновление моделей отображения иврита и турции

Выпуск за январь 2023 г.

Новые версии контейнеров

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.10.0
Речь к тексту 3.10.0
Нейронный текст для речи 2.9.0

Исправлена проблема с режимом гипотезы

Устранение проблемы с прокси-сервером HTTP

Режим отключения пользовательской речи к текстовому контейнеру

Добавление поддержки отключенных контейнеров CNV в интерфейсный интерфейс TTS

Добавьте поддержку этих языковых стандартов:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Выпуск за декабрь 2022 г.

Новые версии контейнеров

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.9.0
Речь к тексту 3.9.0
Нейронный текст для речи 2.8.0

Исправлена проблема с ipv4/ipv6

Устранение проблемы с уязвимостью

Выпуск за ноябрь 2022 г.

Новые версии контейнеров

Добавьте поддержку последних версий модели:

Пользовательская речь в тексте 3.8.0
Речь в тексте 3.8.0
Нейронный текст для речи 2.7.0

Выпуск за октябрь 2022 г.

Новые версии контейнеров

Добавьте поддержку последних версий модели:

Настраиваемая речь в тексте 3.7.0
Речь в тексте 3.7.0
Нейронный текст для речи 2.6.0

Выпуск за сентябрь 2022 г.

Речь в тексте 3.6.0-amd64

Добавьте поддержку последних версий модели.

Добавьте поддержку этих языковых стандартов:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.

Пользовательская речь в тексте 3.6.0-amd64

Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.

Нейронный нейронный текст для речи версии 2.5.0

Добавьте поддержку этих предварительно созданных нейронных голосов:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.

Выпуск за май 2022 г.

Контейнер для распознавания языка речи версии 1.9.0-amd64-preview

Исправления ошибок для распознавания языка речи.

Выпуск за март 2022 г.

Настраиваемая речь в текстовом контейнере версии 3.1.0

Добавлена поддержку для получения отображаемых моделей.

Выпуск за январь 2022 г.

Речь в текстовом контейнере версии 3.0.0

Добавьте поддержку использования контейнеров в отключенных средах.

Речь в текстовом контейнере версии 2.18.0

Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.

Нейронный текст в речь контейнера речи версии 1.12.0

Добавьте поддержку этих предварительно созданных нейронных голосов: am-et-amehaneural, so-so-muuseneuralam-et-mekdesneuralи so-so-ubaxneural.

Регулярные ежемесячные обновления, включая обновления системы безопасности и исправления уязвимостей.