Новые возможности службы "Речь с помощью искусственного интеллекта Azure"?

Служба "Речь ИИ Azure" обновляется на постоянной основе. Чтобы вы оставались в курсе последних разработок, в этой статье предоставлены сведения о новых выпусках и возможностях.

Последние моменты

Заметки о выпуске

Выберите службу или ресурс

Предстоящие планы для пользователей Linux и Android:

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Пожалуйста, рассмотрите возможность использования и планирования соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

  • Ubuntu 18.04 также достигла конца жизни в апреле 2023 года, поэтому наши пользователи должны подготовиться к переходу к нашей минимальной версии до Ubuntu 20.04.

Пакет SDK службы "Речь" 1.37.0: выпуск 2024-апрель

Новые возможности

  • Добавьте поддержку потоковой передачи текста ввода в синтез речи.
  • Измените голос синтеза речи по умолчанию на en-US-AvaMultilingualNeural.
  • Обновите сборки Android, чтобы использовать OpenSSL 3.x.

Исправления ошибок

Примеры

  • Обновлено для новых функций.

Пакет SDK для службы "Речь" 1.36.0: выпуск за март 2024 г.

Новые возможности

  • Добавьте поддержку идентификации языка в многоязычном переводе конечных точек версии 2 с помощью AutoDetectSourceLanguageConfig::FromOpenRange().

Исправления ошибок

  • Исправление события SynthesisCanceled, не запущенное при вызове остановки во время события SynthesisStarted.

  • Исправлена проблема с шумом во встроенном синтезе речи.

  • Исправьте сбой во встроенном распознавании речи при параллельном выполнении нескольких распознавателей.

  • Исправьте параметр режима обнаружения фраз в конечных точках версии 1/2.

  • Устранены различные проблемы с Microsoft Audio Stack.

Примеры

  • Обновления для новых функций.

Пакет SDK для службы "Речь" 1.35.0: выпуск за февраль 2024 г.

Новые возможности

  • Измените текст по умолчанию на голос речи из en-US-JennyMultilingualNeural на en-US-AvaNeural.
  • Поддержка сведений на уровне слова в внедренных результатах перевода речи с помощью подробного формата выходных данных.

Исправления ошибок

  • Исправление API получения позиции AudioDataStream в Python.
  • Исправление перевода речи с помощью конечных точек версии 2 без обнаружения языка.
  • Исправьте случайный сбой и повторяющиеся события границ слова в внедренном тексте в речь.
  • Возвращает правильный код ошибки отмены для внутренней ошибки сервера в подключениях WebSocket.
  • Исправлена ошибка загрузки библиотеки FPIEProcessor.dll при использовании MAS с C#.

Примеры

  • Незначительные обновления форматирования для примеров встроенного распознавания.

Пакет SDK службы "Речь" 1.34.1: выпуск за январь 2024 г.

Критические изменения

  • Исправление ошибок только

Новые возможности

  • Исправление ошибок только

Исправления ошибок

  • Исправлена регрессия, представленная в версии 1.34.0, где URL-адрес конечной точки службы был создан с плохими сведениями о языковом стандарте для пользователей в нескольких регионах Китая.

Пакет SDK для службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Критические изменения

  • SpeechRecognizer обновлен для использования новой конечной точки по умолчанию (т. е. при явном указании URL-адреса), которая больше не поддерживает параметры строки запроса для большинства свойств. Вместо настройки параметров строки запроса непосредственно с помощью ServicePropertyChannel.UriQueryParameter используйте соответствующие функции API.

Новые возможности

  • Совместимость с .NET 8 (исправление за https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 исключением предупреждения о centos7-x64)
  • Поддержка встроенных метрик производительности речи, которые можно использовать для оценки возможностей устройства для запуска внедренной речи.
  • Поддержка идентификации исходного языка в внедренном многоязычном переводе.
  • Поддержка внедренного преобразования речи в текст, текст в речь и перевод для iOS и Swift/Objective-C, выпущенных в предварительной версии.
  • Встроенная поддержка предоставляется в MicrosoftCognitiveServicesSpeechEmbeddededed-iOS Cocoapod.

Исправления ошибок

  • Исправление для пакета SDK для iOS x2 раз увеличения двоичного размера · Проблема #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправлено, чтобы не удалось получить метки времени слова из речи Azure в текстовый API · Проблема #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправление для этапа уничтожения диалоговой службы Подключение or, чтобы правильно отключить события. Это приводило к сбою иногда.
  • Исправлено исключение во время создания распознавателя при использовании MAS.
  • FPIEProcessor.dll из пакета NuGet Microsoft.CognitiveServices.Speech.Extension.MAS для Windows UWP x64 и ARM64 имели зависимость от библиотек среды выполнения VC для собственного C++. Проблема была исправлена путем обновления зависимости до исправления библиотек среды выполнения VC (для UWP).
  • Исправление для повторяющихся вызовов для распознаванияOnceAsync приводит к SPXERR_ALREADY_INITIALIZED при использовании MAS · Проблема 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Исправлена ошибка встроенного распознавания речи при использовании списков фраз.

Примеры

  • Внедренные примеры iOS для преобразования речи в текст, текст для речи и перевода.

Интерфейс командной строки службы "Речь" 1.34.0: выпуск за ноябрь 2023 г.

Новые возможности

  • Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

  • Обновлена зависимость JMESPath до последнего выпуска, улучшается оценка строк

Пакет SDK для службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Уведомление о критических изменениях

  • Теперь новый пакет NuGet, добавленный для Microsoft Audio Stack (MAS), должен быть включен приложениями, использующими MAS в файлах конфигурации пакета.

Новые возможности

  • Добавлен новый пакет NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, который обеспечивает улучшенную производительность отмены эха при использовании Microsoft Audio Stack
  • Оценка произношения: добавлена поддержка просодии и оценки содержимого, которая может оценить речь с точки зрения просодии, словаря, грамматики и темы.

Исправления ошибок

Примеры

Интерфейс командной строки службы "Речь" 1.33.0: выпуск за октябрь 2023 г.

Новые возможности

  • Поддержка выходных данных событий границ слова при синтезе речи.

Исправления ошибок

  • ничего

Пакет SDK для службы "Речь" версии 1.32.1: выпуск за сентябрь 2023 г.

Исправления ошибок

  • Обновления пакетов Android с последними исправлениями безопасности из OpenSSL1.1.1v
  • JS — свойство WebWorkerLoadType, добавленное для разрешения обхода загрузки URL-адреса данных для рабочей роли времени ожидания
  • JS — исправление отключения перевода бесед через 10 минут
  • JS — маркер проверки подлинности перевода бесед из беседы теперь распространяется на подключение службы перевода

Примеры

Пакет SDK для службы "Речь" 1.31.0: выпуск за август 2023 г.

Новые возможности

Критические изменения

  • Бывший сценарий транскрибирования бесед переименовывается в "транскрибирование собраний". Например, используйте MeetingTranscriber вместо ConversationTranscriberнего и используйте CreateMeetingAsync вместо CreateConversationAsyncнего. Хотя имена объектов и методов пакета SDK изменились, переименование не изменяет саму функцию. Используйте объекты транскрибирования собраний для транскрибирования собраний с профилями пользователей и подписями голоса. Дополнительные сведения см . в разделе "Транскрибирование собраний ". Объекты и методы перевода бесед не влияют на эти изменения. Объект и его методы по-прежнему можно использовать ConversationTranslator для сценариев перевода собраний.
  • Для диаризации в режиме реального времени представлен новый ConversationTranscriber объект. Новая объектная модель транскрибирования бесед и шаблоны вызовов похожи на непрерывное распознавание с SpeechRecognizer объектом. Ключевое различие заключается в том, что ConversationTranscriber объект предназначен для использования в сценарии беседы, в котором требуется различать несколько динамиков (диаризация). Профили пользователей и голосовые подписи не применимы. Дополнительные сведения см. в кратком руководстве по диаризации в режиме реального времени.

В этой таблице показаны предыдущие и новые имена объектов для диаризации в режиме реального времени и транскрибирования собраний. Имя сценария находится в первом столбце, предыдущие имена объектов находятся во втором столбце, а новые имена объектов находятся в третьем столбце.
Имя сценария Предыдущие имена объектов Новые имена объектов
Диаризация в режиме реального времени Н/П ConversationTranscriber
Транскрибирование собраний ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Объекты ParticipantParticipantChangedReasonи User объекты применимы как к транскрибированию собраний, так и к сценариям перевода собраний.

2 Объект Meeting является новым и используется с MeetingTranscriber объектом.

Исправления ошибок

Примеры

Пакет SDK для службы "Речь" 1.30.0: выпуск за июль 2023 г.

Новые возможности

  • C++, C#, Java — добавлена поддержка DisplayWords в подробном результате встроенного распознавания речи.
  • Objective-C/Swift — добавлена поддержка ConnectionMessageReceived события в Objective-C/Swift.
  • Objective-C/Swift — улучшены модели обнаружения ключевое слово для iOS. Это изменение увеличило размер определенных пакетов, содержащих двоичные файлы iOS (например, NuGet, XCFramework). Мы работаем над уменьшением размера будущих выпусков.

Исправления ошибок

  • Исправлена утечка памяти при использовании распознавателя речи с PhraseListGrammar, как сообщает клиент (проблема GitHub).
  • Исправлена взаимоблокировка текста для преобразования речи в API открытых подключений.

Дополнительные примечания

  • Java — некоторые внутренние используемые public методы API Java были изменены на пакет internalprotected или private. Это изменение не должно влиять на разработчиков, так как мы не ожидаем, что приложения будут использовать их. Отмечается здесь для прозрачности.

Примеры

Пакет SDK для службы "Речь" 1.29.0: выпуск за июнь 2023 г.

Новые возможности

  • C++, C#, Java — предварительная версия внедренных API перевода речи. Теперь вы можете выполнять перевод речи без облачного подключения!
  • JavaScript — непрерывная идентификация языка (LID) теперь включена для перевода речи.
  • JavaScript — вклад сообщества для добавления LocaleName свойства в VoiceInfo класс. Благодарим пользователя GitHub shivsarthak за запрос на вытягивание.
  • C++, C#, Java — добавлена поддержка повторного преобразования внедренного текста в речь с частотой от 16 кГц до 48 кГц.
  • Добавлена поддержка hi-IN языкового стандарта в распознаватель намерений с помощью простого сопоставления шаблонов.

Исправления ошибок

  • Исправлена авария, вызванная состоянием гонки в Распознаватель речи во время уничтожения объектов, как показано в некоторых наших тестах Android
  • Исправлены возможные взаимоблокировки в распознавателье намерений с помощью простого сопоставления шаблонов

Примеры

  • Новые примеры перевода внедренных речи

Пакет SDK для службы "Речь" 1.28.0: выпуск за май 2023 г.

Критическое изменение

  • Пакет SDK для JavaScript: протокол OCSP (Online Certificate Status Protocol( OCSP) был удален. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.28 и далее больше не будет включать наш пользовательский модуль OCSP.

Новые возможности

  • Встроенное распознавание речи теперь возвращается NoMatchReason::EndSilenceTimeout , когда время ожидания молчания происходит в конце речевых фрагментов. Это соответствует поведению при распознавании с помощью службы распознавания речи в режиме реального времени.
  • Пакет SDK для JavaScript: задайте свойства для SpeechTranslationConfig использования PropertyId значений перечисления.

Исправления ошибок

  • C# в Windows — исправление потенциального состояния гонки и взаимоблокировки в расширении звука Windows. В сценариях, которые быстро удаляют средство отрисовки звука, а также используют метод синтезатора для остановки речи, базовое событие не сбрасывается по остановке и может привести к тому, что объект отрисовщика никогда не будет удален, все время как он может хранить глобальную блокировку для удаления, заморозить поток dotnet GC.

Примеры

  • Добавлен внедренный образец речи для MAUI.
  • Обновлен пример внедренной речи для Android Java, чтобы включить текст в речь.

Пакет SDK для службы "Речь" 1.27.0: выпуск за апрель 2023 г.

Уведомление о предстоящих изменениях

  • Мы планируем удалить протокол состояния сертификатов в Интернете (OCSP) в следующем выпуске пакета SDK javaScript. Это позволяет клиентам лучше соответствовать стандартам браузера и узла для обработки сертификатов. Версия 1.27 — это последний выпуск, включающий наш пользовательский модуль OCSP.

Новые возможности

  • JavaScript — добавлена поддержка ввода микрофона из браузера с помощью идентификации и проверки говорящего.
  • Встроенное распознавание речи — обновление поддержки PropertyId::Speech_SegmentationSilenceTimeoutMs параметров.

Исправления ошибок

  • Общие — обновления надежности в логике повторного подключения служб (все языки программирования, кроме JavaScript).
  • Общие сведения . Исправление утечки памяти строк в Windows (все соответствующие языки программирования, кроме JavaScript).
  • Встроенное распознавание речи — исправление сбоя во французском распознавании речи при использовании определенных записей списка грамматики.
  • Документация по исходному коду — исправления в справочной документации по пакету SDK, связанные с ведением журнала звука в службе.
  • Распознавание намерений— исправление приоритетов сопоставления шаблонов, связанных с сущностями списка.

Примеры

  • Правильно обработайте сбой проверки подлинности в примере транскрибирования бесед C# (CTS).
  • Добавлен пример оценки произношения потоковой передачи для Python, JavaScript, Objective-C и Swift.

Пакет SDK для службы "Речь" версии 1.26.0: выпуск за март 2023 г.

Критические изменения

  • Bitcode отключен во всех целевых объектах iOS в следующих пакетах: Cocoapod с xcframework, NuGet (для Xamarin и MAUI) и Unity. Это изменение связано с прекращением поддержки биткода Apple из Xcode 14 и более поздних версий. Это изменение также означает, что если вы используете Xcode 13 версии или явно включили бит-код в приложении с помощью пакета SDK для службы "Речь", может возникнуть ошибка с сообщением "Платформа не содержит биткода и необходимо перестроить его". Чтобы устранить эту проблему, убедитесь, что целевые объекты отключили битовый код.
  • Минимальный целевой объект развертывания iOS обновлен до версии 11.0 в этом выпуске, что означает, что armv7 HW больше не поддерживается.

Новые возможности

  • Встроенное распознавание речи (на устройстве) теперь поддерживает как 8, так и 16-кГц входной звук частоты выборки (16-разрядный на выборку, моно PCM).
  • Синтез речи теперь сообщает о задержках подключения, сети и службы в результате, чтобы помочь в комплексной оптимизации задержки.
  • Новые правила нарушения привязки для распознавания намерений с простым сопоставлением шаблонов. Чем больше символов, тем больше байтов, которые совпадают, выиграют над шаблонными совпадениями с нижним числом байтов. Пример: шаблон "Выбрать {что-то} в правом верхнем углу" выиграет "Выбрать {что-то}"

Исправления ошибок

  • Синтез речи: исправлена ошибка, из-за которой эмодзи не правильно в событиях границ слова.
  • Распознавание намерений с помощью беседы Распознавание речи (CLU):
    • Намерения из рабочего процесса оркестратора CLU теперь отображаются правильно.
    • Результат JSON теперь доступен с помощью идентификатора LanguageUnderstandingServiceResponse_JsonResultсвойства.
  • Распознавание речи с активацией ключевое слово: исправление отсутствия звука около 150 мс после распознавания ключевое слово.
  • Исправление сборки выпуска пакета SDK для службы "Речь" для NuGet iOS MAUI, сообщаемой клиентом (проблема с GitHub)

Примеры

  • Исправление примера Swift iOS, сообщаемого клиентом (проблема с GitHub)

Пакет SDK для службы "Речь" 1.25.0: выпуск за январь 2023 г.

Критические изменения

  • API-интерфейсы идентификации языка (предварительная версия) были упрощены. Если вы обновляете пакет SDK для службы "Речь" версии 1.25 и видите разрыв сборки, посетите страницу идентификации языка, чтобы узнать о новом свойстве SpeechServiceConnection_LanguageIdMode. Это одно свойство заменяет два предыдущих SpeechServiceConnection_SingleLanguageIdPriority и SpeechServiceConnection_ContinuousLanguageIdPriority. Приоритет между низкой задержкой и высокой точностью больше не требуется после недавних улучшений модели. Теперь при выполнении непрерывного распознавания речи или перевода необходимо выбрать, следует ли выполнять функцию при запуске или непрерывной идентификации языка.

Новые возможности

  • C#/C++/Java: внедренный пакет SDK для службы "Речь" теперь выпущен в общедоступной предварительной версии. См. документацию по внедренной речи (предварительная версия). Теперь вы можете выполнять речь на устройстве с текстом и текстом, если подключение к облаку периодически или недоступно. Поддерживается на платформах Android, Linux, macOS и Windows
  • C# MAUI: поддержка, добавленная для целевых объектов iOS и Mac Catalyst в Пакете SDK для службы "Речь" (проблема с клиентом)
  • Unity: архитектура Android x86_64 добавлена в пакет Unity (проблема с клиентом)
  • Перейти:
    • Поддержка прямой потоковой передачи ALAW/MULAW, добавленная для распознавания речи (проблема с клиентом)
    • Добавлена поддержка PhraseListGrammar. Благодарим пользователя GitHub čoko за вклад сообщества!
  • C#/C++: Распознаватель намерений теперь поддерживает модели общения Распознавание речи в C++ и C# с оркестрацией в службе Майкрософт

Исправления ошибок

  • Исправление случайного зависания в KeywordRecognizer при попытке остановить его
  • Python:
    • Исправление для получения результатов оценки произношения при PronunciationAssessmentGranularity.FullText установке (проблема с клиентом)
    • Исправление гендерных свойств для голосов мужчин, которые не извлекаются, при получении голосов синтеза речи
  • JavaScript
    • Исправление для синтаксического анализа некоторых WAV-файлов, записанных на устройствах iOS (проблема клиента)
    • Пакет SDK для JS теперь создает без использования npm-force-resolutions (проблема с клиентом)
    • Переводчик беседы теперь правильно задает конечную точку службы при использовании экземпляра speechConfig, созданного с помощью SpeechConfig.fromEndpoint()

Примеры

  • Добавлены примеры использования внедренной речи

  • Добавлен пример речи в текст для MAUI

    См . репозиторий примеров пакета SDK службы "Речь".

Пакет SDK для службы "Речь" 1.24.2: выпуск за ноябрь 2022 г.

Новые возможности

  • Нет новых функций, просто исправление встроенного ядра для поддержки новых файлов моделей.

Исправления ошибок

  • Все языки программирования
    • Исправлена проблема с шифрованием внедренных моделей распознавания речи.

Пакет SDK для службы "Речь" 1.24.1: выпуск за ноябрь 2022 г.

Новые возможности

  • Опубликованные пакеты для предварительной версии встроенной речи. Дополнительные сведения см. в разделе https://aka.ms/embedded-speech.

Исправления ошибок

  • Все языки программирования
    • Исправлена ошибка встроенного сбоя TTS, если шрифт голосовой связи не поддерживается
    • Исправление stopSpeaking() не может остановить воспроизведение в Linux (#1686)
  • Пакет SDK для JavaScript
    • Исправлена регрессия в том, как транскрибируемый звук беседы.
  • Java
    • Временно опубликовано обновленные файлы POM и Javadocs в Maven Central, чтобы конвейер документов мог обновлять справочные документы в Интернете.
  • Python
    • Исправлена регрессия, из-за которой Python speak_text(ssml) возвращает void.

Пакет SDK для службы "Речь" 1.24.0: выпуск за октябрь 2022 г.

Новые возможности

  • Все языки программирования: AMR-WB (16khz), добавленный в поддерживаемый список форматов вывода звука в речь
  • Python: пакет, добавленный для Linux ARM64 для поддерживаемых дистрибутивов Linux.
  • C#/C++/Java/Python: добавлена поддержка прямой потоковой передачи ALAW и MULAW в службу распознавания речи (в дополнение к существующему потоку PCM).AudioStreamWaveFormat
  • C# MAUI: пакет NuGet обновлен для поддержки целевых объектов Android для разработчиков .NET MAUI (проблема с клиентом)
  • Mac: добавлен отдельный XCframework для Mac, который не содержит двоичных файлов iOS. Это позволяет разработчикам, которым требуется только двоичные файлы Mac, используя меньший пакет XCframework.
  • Microsoft Audio Stack (MAS):
    • При указании углов формирования луча звук, исходящий за пределами указанного диапазона, будет подавляться лучше.
    • Примерно 70 % уменьшает размер libMicrosoft.CognitiveServices.Speech.extension.mas.so linux ARM32 и Linux ARM64.
  • Распознавание намерений с помощью сопоставления шаблонов:
    • Добавление поддержки орфографии для языков fr, , esdejp
    • Добавлена предварительно созданная поддержка целочисленного числа для языка es.

Исправления ошибок

  • iOS: исправлена ошибка синтеза речи в iOS 16, вызванная сбоем сжатия звука (проблема клиента).
  • JavaScript:
    • Исправление маркера проверки подлинности, не работающего при получении голосового списка синтеза речи (проблема клиента).
    • Используйте URL-адрес данных для загрузки рабочих ролей (проблема с клиентом).
    • Создайте рабочий лет звукового процессора, только если AudioWorklet поддерживается в браузере (проблема с клиентом). Это был вклад сообщества Уильям Вонг. Спасибо Уильяму!
    • Исправьте распознанный обратный вызов, если ответ connectionMessage LUIS пуст (проблема с клиентом).
    • Правильно задать время ожидания сегментации речи.
  • Распознавание намерений с помощью сопоставления шаблонов:
    • Символы, отличные от json в моделях, теперь будут загружаться должным образом.
    • Исправлена проблема с зависанием при recognizeOnceAsync(text) вызове во время непрерывного распознавания.

Пакет SDK для службы "Речь" 1.23.0, выпуск июля 2022 г.

новые функции;

  • C#, C++, Java: добавлена поддержка языков zh-cn и zh-hk для Распознавания намерений с Сопоставлением шаблонов.
  • C#: добавлена поддержка сборок платформы AnyCPU .NET

Исправления ошибок

  • Android: исправлена уязвимость OpenSSL CVE-2022-2068 путем обновления OpenSSL до версии 1.1.1q
  • Python: исправление сбоя при использовании PushAudioInputStream
  • iOS: исправление "EXC_BAD_ACCESS: попытка разыменования пустого указателя", как указано в iOS (проблема с GitHub)

Пакет SDK для службы "Речь" 1.22.0: выпуск за июнь 2022 г.

новые функции;

  • Java: Api IntentRecognitionResult для getEntities(), applyLanguageModels(), и recognizeOnceAsync(text), добавленный для поддержки механизма "простого сопоставления шаблонов".
  • Unity: добавлена поддержка Mac M1 (Apple Silicon) для пакета Unity (сообщение о проблеме на GitHub).
  • C#: добавлена поддержка архитектур x86 и x64 для Xamarin Android (сообщение о проблеме на GitHub)
  • C#: для пакета SDK C# минимальная версия .NET Framework обновлена до версии 4.6.2, так как поддержка версии 4.6.1 прекращена (см. статью Политика жизненного цикла компонентов Microsoft .NET Framework).
  • Linux: добавлена поддержка Debian 11 и Ubuntu 22.04 LTS. Для Ubuntu 22.04 LTS требуется ручная установка libssl1.1 либо в виде двоичного пакета (например, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb или более поздней версии для x64), либо путем компиляции из источников.

Исправления ошибок

  • UWP: удалена зависимость OpenSSL из библиотек UWP и заменена веб-сокетом WinRT и интерфейсами API HTTP для соответствия требованиям безопасности и уменьшения занимаемой двоичным кодом памяти.
  • Mac: исправлена проблема "Модуль MicrosoftCognitiveServicesSpeech Not Found" при использовании проектов Swift, предназначенных для платформы macOS
  • Windows и Mac: исправлена связанная с платформой проблема, из-за которой с источниками звука, настроенными с помощью свойств для потоковой передачи в режиме реального времени, происходила задержка, что в конечном итоге приводило к превышению емкости.

Примеры (GitHub)

  • C#: примеры для .NET Framework обновлены для использования версии 4.6.2.
  • Unity: исправлен пример виртуального помощника для Android и UWP.
  • Unity: примеры для Unity обновлены для использования версии Unity 2020 LTS.

Выпуск пакета SDK для службы "Речь" версии 1.21.0 за апрель 2022 года

новые функции;

  • Java и JavaScript: добавлена поддержка непрерывной идентификации языка при использовании объекта SpeechRecognizer
  • JavaScript: добавлены API диагностики для включения уровня ведения журнала консоли и ведения журнала файлов (только для Node ), что поможет корпорации Майкрософт устранять проблемы, о которых сообщают клиенты.
  • Python: добавлена поддержка транскрибирования бесед.
  • Go: добавлена поддержка распознавания говорящего.
  • C++ и C#: добавлена поддержка требуемой группы слов в распознавателье намерений (простое сопоставление шаблонов). Например: "(set|start|begin) a timer" ((настроить|запустить|включить) таймер), где для распознаваемого намерения должно присутствовать значение "set", "start" или "begin".
  • Все языки программирования, синтез речи: добавлено свойство длительности в событиях границ слов. Добавлена поддержка границ пунктуации и границ предложения.
  • Objective-C/Swift/Java: добавлены результаты на уровне слов для объекта результата оценки произношения (аналогично C#). Приложению больше не нужно анализировать строку результата JSON для получения сведений на уровне слова (проблема GitHub).
  • Платформа iOS: добавлена экспериментальная поддержка архитектуры ARMv7.

Исправления ошибок

  • Платформа iOS: исправлена возможность создания целевого объекта "Любое устройство iOS", при использовании CocoaPod (проблема GitHub)
  • Платформа Android: версия OpenSSL обновлена до 1.1.1n, благодаря чему устранена уязвимость системы безопасности CVE-2022-0778.
  • JavaScript: исправлена проблема, из-за которой заголовок wav не был обновлен с размером файла (проблема GitHub)
  • JavaScript: исправлена проблема десинхронизации идентификатора запроса, нарушающая сценарии перевода (проблема GitHub).
  • JavaScript: исправлена проблема, возникавшая при создании экземпляра SpeakerAudioDestination без потока (проблема GitHub).
  • C++: исправление заголовков C++ для удаления предупреждения при компиляции для C++17 или более поздней версии.

Примеры GitHub

Пакет SDK для службы "Речь" 1.20.0: выпуск за январь 2022 г.

новые функции;

  • Objective-C, Swift и Python. Добавлена поддержка для DialogServiceConnector, используемого для сценариев с голосовым помощником.
  • Python. Добавлена поддержка для Python 3.10. Поддержка для Python 3.6 была удалена в соответствии с завершением жизненного цикла версии 3.6.
  • Unity. Теперь для приложений Unity в Linux поддерживается пакет SDK для службы "Речь".
  • C++, C#. Теперь в C# поддерживается IntentRecognizer с использованием сопоставления шаблонов. Кроме того, в C++ и C# теперь поддерживаются сценарии с пользовательскими сущностями, необязательными группами и ролями сущностей.
  • C++, C#. Улучшенное ведение журнала трассировки диагностики с помощью новых классов FileLogger, MemoryLogger и EventLogger. Журналы пакета SDK — это важное средство, используемое корпорацией Майкрософт для диагностики проблем, о которых сообщили клиенты. Эти новые классы упрощают интеграцию журналов пакета SDK для службы "Речь" в собственные системы клиентов для ведения журналов.
  • Все языки программирования. Теперь PronunciationAssessmentConfig имеет свойства для задания требуемого алфавита фонем (IPA или SAPI) и числа N лучших фонем (без необходимости создавать конфигурацию JSON в соответствии с проблемой GitHub 1284). Кроме того, теперь поддерживаются выходные данные на уровне слогов.
  • Android, iOS и macOS (все языки программирования):GStreamer больше не требуется для поддержки сетей с ограниченной пропускной способностью. SpeechSynthesizer теперь использует возможности декодирования звука операционной системы для декодирования сжатых аудиопотоков из текста в службу речи.
  • Все языки программирования: теперь SpeechSynthesizer поддерживает три новых формата Opus для необработанных выходных данных (без контейнера), которые широко используются в сценариях прямой трансляции.
  • JavaScript: в SpeechSynthesizer добавлен API getVoicesAsync() для получения списка поддерживаемых синтезированных голосов (проблема GitHub 1350).
  • JavaScript: в AudioStreamFormat добавлен API getWaveFormat() для поддержки форматов wave без PCM (проблема GitHub 452).
  • JavaScript: в SpeakerAudioDestination добавлены API-интерфейсы методов получения или задания и mute()/unmute() (проблема GitHub 463)

Исправления ошибок

  • C++, C#, Java, JavaScript, Objective-C и Swift: исправление для устранения 10-секундной задержки при остановке распознавателя речи, использующего PushAudioInputStream. Это сделано для случая, когда после вызова функции StopContinuousRecognition не поступают новые звуковые данные (проблемы GitHub 1318, 331)
  • Unity в Android и UWP: метафайлы Unity были исправлены для UWP, Android ARM64 и подсистемы Windows для Android (WSA) ARM64 (проблема GitHub 1360).
  • iOS: исправлена компиляция приложения с пакетом SDK для службы "Речь" на любом устройстве iOS при использовании CocoaPods (проблема GitHub 1320)
  • iOS: когда SpeechSynthesizer настроен для вывода звука непосредственно на динамик, в редких случаях воспроизведение останавливается в самом начале. Эта проблема устранена.
  • JavaScript: использование резервного обработчика скрипта для ввода с микрофона, если не найден список задач для аудио (проблема GitHub 455)
  • JavaScript: добавлен протокол в агент для устранения ошибки, обнаруженной при интеграции с версией Sentry (проблема GitHub 465)

Примеры GitHub

  • В примерах C++, C#, Python и Java показано, как получить подробные результаты распознавания. Сведения включают альтернативные результаты распознавания, оценку достоверности, лексическую форму, нормализованную форму, маскированную нормализованную форму, с хронометражем на уровне слов для каждого из них.
  • Пример iOS добавлен с использованием AVFoundation в качестве внешнего источника звука.
  • Пример Java добавлен, чтобы продемонстрировать получение формата SRT (текст в формате SubRip) с помощью события WordBoundary.
  • Примеры Androidдля оценки произношения.
  • C++, C#, демонстрирующие использование новых классов ведения журнала диагностики.

Пакет SDK для службы "Речь" 1.19.0: выпуска за ноябрь 2021 г.

Ключевые моменты

  • Служба "Распознавание говорящего" доступна в виде общедоступной версии. API-интерфейсы пакета SDK для службы "Речь" доступны на языках C++, C#, Java и JavaScript. С помощью Распознавания говорящего можно точно проверять и определять говорящих, используя их уникальные характеристики голоса. Дополнительные сведения об этом разделе см. в документации.

  • Совместно с Azure DevOps и GitHub мы прекратили поддержку Ubuntu 16.04. Срок действия Ubuntu 16.04 истек в апреле 2021 года. Перенос рабочих процессов Ubuntu 16.04 в Ubuntu 18.04 или более поздней версии.

  • Компоновка OpenSSL в двоичных файлах Linux изменилась на динамическую. Размер двоичного файла Linux сокращен примерно на 50 %.

  • Добавлена поддержка Mac M1на основе ARM Silicon.

новые функции;

  • C++/C#/Java. Добавлены новые API для поддержки обработки звука для речевого ввода с помощью Microsoft Audio Stack. Описана в этом документе.

  • C++. Новые API для распознавания намерений, упрощающие более сложные сопоставления шаблонов. Сюда входят сущности List и Prebuilt Integer, а также поддержка группирования намерений и сущностей в виде моделей (документация, обновления и примеры находятся в стадии разработки и будут опубликованы в ближайшем будущем).

  • Mac: поддержка кремния на основе ARM64 (M1) для КакаоПод, Python, Java и NuGet, связанных с проблемой GitHub 1244.

  • iOS/Mac. Двоичные файлы iOS и macOS теперь упаковываются в XCFramework (проблема GitHub 919).

  • iOS/Mac. Поддержка для Mac Catalyst (проблема GitHub 1171).

  • Linux. Добавлен новый пакет TAR для CentOS7 О пакете SDK для службы "Речь". Теперь TAR в Linux содержит специальные библиотеки для RHEL/CentOS 7 в lib/centos7-x64. Библиотеки пакета SDK для службы "Речь" в lib/x64 по прежнему применимы для всех других поддерживаемых дистрибутивов Linux x64 (включая RHEL/CentOS 8) и не будут работать в RHEL/CentOS 7.

  • JavaScript: VoiceProfile & SpeakerRecognizer API сделал async/awaitable.

  • JavaScript. Добавлена поддержка для регионов Azure для государственных организаций США.

  • Windows. Добавлена поддержка для воспроизведения на универсальной платформе Windows (UWP).

Исправления ошибок

  • Android. Обновление безопасности OpenSSL (обновлено до версии 1.1.1 l) для пакетов Android.

  • Python. Устранена ошибка, при которой не удается выбрать устройство говорящего в Python.

  • Core. Автоматическое повторное подключение при неудачной попытке подключения.

  • iOS. Отключено сжатие звука в пакетах для iOS из-за нестабильности и проблем со сборкой bitcode при использовании GStreamer. Дополнительные сведения: проблема GitHub 1209.

Примеры GitHub

  • Mac/iOS. Обновленные примеры и краткие руководства по использованию пакета xcframework.

  • .NET. Примеры обновлены для использования версии .NET Core 3.1.

  • JavaScript. Добавлен пример для речевых помощников.

Пакет SDK для службы "Речь" 1.18.0. Выпуск за июль 2021 г.

Примечание. Начните работу с пакетом SDK для службы "Речь" здесь.

Краткий обзор

  • Срок службы Ubuntu 16.04 истек в апреле 2021 года. С помощью Azure DevOps и GitHub мы откажемся от поддержки 16.04 в сентябре 2021 года. Перенос рабочих процессов ubuntu-16.04 в ubuntu-18.04 или более поздней версии до этого.

новые функции;

  • C++ . Благодаря простому сопоставлению шаблонов языка с распознавателем намерения теперь проще реализовать простые сценарии распознавания намерения.
  • C++/C#/Java. Мы добавили новый API GetActivationPhrasesAsync() в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
    • Важно! Возможность Распознавания говорящего доступна в предварительной версии. Поддержка всех речевых профилей, созданных в предварительной версии, будет прекращена через 90 дней после того, как возможность Распознавания говорящего будет переведена из режима предварительной версии в общую доступность. На этом этапе речевые профили предварительной версии перестанут работать.
  • Python. Добавлена поддержка непрерывного определения языка для имеющихся объектов SpeechRecognizer и TranslationRecognizer.
  • Python. Добавлен новый объект Python с именем SourceLanguageRecognizer для однократного или непрерывного определения языка (без распознавания или перевода).
  • JavaScript. API getActivationPhrasesAsync был добавлен в класс VoiceProfileClient для получения списка допустимых фраз активации на этапе регистрации распознавания говорящего для независимых сценариев распознавания.
  • JavaScript. Теперь API enrollProfileAsync в VoiceProfileClient является асинхронным ожидающим. См . этот независимый код идентификации, например использование.

Улучшения

  • Java. Поддержка AutoCloseable добавлена во многие объекты Java. Теперь модель try-with-resources поддерживается для освобождения ресурсов. См. этот пример с использованием try-with-resources. Дополнительные сведения об этом шаблоне см. в учебнике по Oracle Java для инструкции try-with-resources.
  • Занимаемая память диска значительно уменьшилась для многих платформ и архитектур. Примеры двоичного файла Microsoft.CognitiveServices.Speech.core: Linux x64 — на 475 КБ меньше (сокращение на 8,0 %), Windows ARM64 UWP — на 464 КБ меньше (сокращение на 11,5 %), Windows x86 — на 343 КБ меньше (сокращение на 17,5 %) и Windows x64 — на 451 КБ меньше (сокращение на 19,4 %).

Исправления ошибок

  • Java. Исправлена ошибка синтеза, при которой текст синтеза содержит суррогатные символы. Подробные сведения см. здесь.
  • JavaScript. При обработке аудио с микрофона в браузере теперь используется AudioWorkletNode вместо устаревшего ScriptProcessorNode. Подробные сведения см. здесь.
  • JavaScript. Правильная поддержка беседы в активном состоянии во время длительных сценариев перевода бесед. Подробные сведения см. здесь.
  • JavaScript. Исправлена проблема повторного подключения распознавателя к MediaStream при постоянном распознавании. Подробные сведения см. здесь.
  • JavaScript. Исправлена проблема повторного подключения распознавателя к pushStream при постоянном распознавании. Подробные сведения см. здесь.
  • JavaScript. Исправлено вычисление смещения на уровне слов в подробных результатах распознавания. Подробные сведения см. здесь.

Примеры

  • Обновленные примеры краткого руководства для Java см. здесь.
  • Примеры распознавания говорящего JavaScript обновлены с учетом нового использования enrollProfileAsync(). Примеры см. здесь.

Пакет SDK для службы "Речь" 1.17.0. Выпуск за май 2021 г.

Примечание

Начните работу с пакетом SDK службы "Речь" здесь.

Краткий обзор

  • Уменьшена занимаемая память. Мы продолжаем уменьшать объем памяти и места на диске, занимаемое пакетом SDK для службы "Речь" и его компонентами.
  • Новый автономный API идентификации языка позволяет узнать, на каком языке говорят.
  • С помощью Unity в macOS разработанные речевые модели внедрены в приложения смешанной реальности и игровые приложения.
  • Теперь вы можете использовать текст для речи в дополнение к распознаванию речи на языке программирования Go.
  • Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.

новые функции;

  • C++/C#: новое автономное на момент начала и непрерывное распознавание языка посредством API SourceLanguageRecognizer. Определить языки аудио содержимого можно с помощью API. См. дополнительные сведения о C++ и C#.
  • C++/C#: распознавание речи и распознавание перевода теперь поддерживают как при запуске, так и непрерывную идентификацию языка, чтобы программно определить, какие языки говорятся перед их транскрибированием или переводом. См. документацию по распознаванию речи здесь и по переводу речи здесь.
  • C#: добавлена поддержка Unity в macOS (x64). Это разблокирует случаи использования распознавания и синтеза речи в смешанной реальности и играх!
  • Go: Мы добавили поддержку синтеза речи для речи на языке программирования Go, чтобы сделать синтез речи доступным в еще большем случае. Ознакомьтесь с кратким руководством или справочной документацией.
  • C++/C#/Java/Python/Objective-C/Go: синтезатор речи теперь поддерживает объект connection. Он помогает отслеживать подключение к службе "Речь" и управлять им, а также рекомендуется для предварительного подключения в целях сокращения задержки. См. документацию здесь.
  • C++/C#/Java/Python/Objective-C/Go: теперь в SpeechSynthesisResultстало доступным время задержки и опустошения, применяемое для отслеживания и диагностики проблем с задержкой синтеза речи. Дополнительные сведения по C++, C#, Java, Python, Objective-C и Go.
  • C++/C#/Java/Python/Objective-C: текст для речи теперь использует нейронные голоса по умолчанию, если не указать используемый голос. По умолчанию это дает более точный результат, но также увеличивает цену по умолчанию. Вы можете указать любой из наших более 70 стандартных голосов или более 130 нейронных голосов, чтобы изменить голос по умолчанию.
  • C++/C#/Java/Python/Objective-C/Go: к информации о синтезе голоса добавлено свойство "Пол", чтобы упростить выбор голоса на основе пола. Это решает проблему GitHub #1055.
  • C++, C#, Java, JavaScript: в распознавании говорящего теперь поддерживается retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync и getAllProfilesAsync() для упрощения управления всеми голосовыми профилями конкретной учетной записи. См. документацию по C++, C#, Java, JavaScript. Это решает проблему GitHub #338.
  • JavaScript: мы добавили повторную попытку при сбоях подключения, что сделает приложения речи на основе JavaScript более надежными.

Улучшения

  • Двоичные файлы Linux и Android пакета SDK для службы обновлены для использования последней версии OpenSSL (1.1.1 k)
  • Улучшения размера кода:
    • Распознавание речи теперь разбивается на отдельную библиотеку "lu".
    • Основной двоичный файл для Windows x64 уменьшился на 14,4 %.
    • Бинарный размер ядра Android ARM64 уменьшился на 13,7%.
    • размер других компонентов также уменьшился.

Исправления ошибок

  • Все: исправлена ошибка GitHub #842, связанные с параметром ServiceTimeout. Теперь вы можете транскрибировать длинные звуковые файлы с помощью пакета SDK службы "Речь" без подключения к службе, завершающейся этой ошибкой. Однако для длинных файлов по-прежнему рекомендуется использовать пакетное транскрибирование.
  • C# : исправлена ошибка GitHub #947, при которой речевой ввод не может привести к некорректному состоянию приложения.
  • Java: исправлена ошибка GitHub № 997, из-за которой пакет SDK Речи для Java 1.16 с Java аварийно завершал работу при использовании параметра DialogServiceConnector без сетевого подключения или недопустимого ключа подписки.
  • Исправлено аварийное завершение при внезапной остановке операции распознавания речи (например, с помощью клавиш CTRL+C в консольном приложении).
  • Java: добавлено исправление для удаления временных файлов в Windows при использовании пакета SDK Речи для Java.
  • Java: исправлена ошибка GitHub #994, при которой вызов DialogServiceConnector.stopListeningAsync может привести к ошибке.
  • Java: исправлена проблема с клиентом в кратком руководстве по виртуальному помощнику.
  • JavaScript: Исправлена проблема GitHub #366 , из-за ConversationTranslator которой возникла ошибка "this.cancelSpeech не является функцией".
  • JavaScript: исправлена ошибка GitHub #298, когда в примере "Получить результат как поток в памяти" воспроизводился звук.
  • JavaScript: исправлена проблема GitHub #350 , при которой вызов AudioConfig может привести к ошибке ReferenceError: MediaStream не определен.
  • JavaScript: исправлено предупреждение UnhandledPromiseRejection в Node.js для длительных сеансов.

Примеры

  • Обновленная документация с примерами Unity для macOS представлена здесь.
  • Пример React Native для службы распознавания речи искусственного интеллекта Azure теперь доступен здесь.

Пакет SDK для службы "Речь" 1.16.0. Выпуск за март 2021 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.

новые функции;

  • C++/C#/Java/Python: перенесено в новейшую версию GStreamer (1.18.3), чтобы добавить поддержку транскрибирования любого формата мультимедиа в Windows, Linux и Android. См. документацию здесь.
  • C++/C#/Java/Objective-C/Python: в пакет SDK добавлена поддержка декодирования сжатого TTS/синтезированного звука. Если задан выходной звуковой формат PCM, и GStreamer доступен в системе, пакет SDK будет автоматически запрашивать сжатый звук из службы, чтобы сэкономить пропускную способность и декодировать звук в клиенте. Чтобы отключить эту функцию, задайте для параметра SpeechServiceConnection_SynthEnableCompressedAudioTransmission значение false. Сведения для C++, C#, Java, Objective-C, Python.
  • JavaScript: пользователи Node.js теперь могут использовать AudioConfig.fromWavFileInput API. Это решает проблему GitHub #252.
  • C++/C#/Java/Objective-C/Python: добавлен метод GetVoicesAsync() для TTS, для возврата всех доступных голосов синтеза. Сведения для C++, C#, Java, Objective-C и Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие VisemeReceived для TTS/синтеза речи, для возврата синхронной анимации висеме. См. документацию здесь.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлено событие BookmarkReached для TTS. Можно задать закладки во входном SSML и сформировать смещения звука для каждой закладки. См. документацию здесь.
  • Java: добавлена поддержка для API распознавания говорящего. Подробные сведения см. здесь.
  • C++/C#/Java/JavaScript/Objective-C/Python: добавлены два новых выходных звуковых формата с контейнером WebM для TTS (Webm16Khz16BitMonoOpus и Webm24Khz16BitMonoOpus). Это более эффективные форматы для потоковой передачи звука с использованием кодека Opus. Сведения для C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: добавлена поддержка извлечения голосового профиля для сценария распознавания говорящего. Сведения для C++, C# и Java.
  • C++/C#/Java/Objective-C/Python: добавлена поддержка отдельной общедоступной библиотеки для управления звуковым микрофоном и динамиком. Это позволяет разработчику использовать пакет SDK в средах, которые не имеют необходимых зависимостей аудио библиотеки.
  • Objective-C/Swift: добавлена поддержка платформы модулей с зонтичным заголовком. Это дает возможность разработчику импортировать Пакет SDK для службы "Речь" как модуль в приложениях iOS/Mac Objective-C/Swift. Это решает проблему GitHub #452.
  • Python: добавлена поддержка для Python 3.9 и удалена поддержка для Python 3.5 в конце жизненного цикла Python 3.5.

Известные проблемы

  • C++/C#/Java: DialogServiceConnector не может использовать CustomCommandsConfig приложение пользовательских команд и вместо этого столкнется с ошибкой подключения. Этого можно избежать, вручную добавив в запрос идентификатор приложения с помощью config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Ожидаемое поведение CustomCommandsConfig будет восстановлено в следующем выпуске.

Улучшения

  • В рамках работ, охватывающих несколько выпусков, которые призваны сократить использование памяти и дискового пространства пакетом SDK для службы "Речь", размер двоичных файлов Android уменьшен на 3–5 %.
  • Улучшены точность, читаемость и содержащие ссылки разделы справочной документации по C#, которая доступна здесь.

Исправления ошибок

  • JavaScript: теперь для больших заголовков файлов WAV выполняется корректный синтаксический анализ (срез заголовка увеличен до 512 байт). Это решает проблему GitHub #962.
  • JavaScript: устранена ошибка синхронизации микрофона, возникавшая, если микрофонный поток заканчивался до прекращения распознавания. Это решает проблему с неработающим распознаванием речи в браузере Firefox.
  • JavaScript: обеспечена корректная обработка обещания инициализации в ситуациях, когда браузер принудительно отключает микрофон до завершения включения.
  • JavaScript: зависимость URL-адреса заменена синтаксическим разбором. Это решает проблему GitHub #264.
  • Android: устранена ошибка обратных вызовов, которые не работали, если для параметра minifyEnabled было задано значение True.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY будет корректно настраиваться на базовый сокет ввода-вывода TTS для сокращения задержки.
  • C++/C#/Java/Python/Objective-C/Go: устранен случайный сбой, при котором распознаватель уничтожался сразу после начала распознавания.
  • C++/C#/Java: устранен случайный сбой с уничтожением распознавателя говорящего.

Примеры

  • JavaScript: для примеров браузера впредь не требуется отдельная загрузка файла библиотеки JavaScript.

Пакет SDK для службы "Речь" 1.15.0: Выпуск за январь 2021 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.

Краткий обзор

  • Сокращение требуемого объема памяти и места на диске делает пакет SDK более эффективным.
  • Для закрытой предварительной версии Пользовательского нейронного голоса доступны усовершенствованные форматы вывода.
  • Распознаватель намерения теперь способен возвращать более детализированные намерения. Это дает возможность выполнять отдельную оценку намерения клиента.
  • Голосовые помощники и боты теперь проще в настройке; можно немедленно прекращать прослушивание и четче контролировать реакцию на ошибки.
  • Сжатие стало необязательным, благодаря чему повысилась производительность устройств.
  • Используйте пакет SDK для службы "Речь" в Windows ARM/ARM64.
  • Усовершенствована отладка на низком уровне.
  • Функция оценки произношения стала более широкодоступной.
  • Несколько исправлений устраняют проблемы, отмеченные на GitHub ВАМИ, нашими ценными клиентами. СПАСИБО. Поделитесь с нами своими впечатлениями.

Улучшения

  • Пакет SDK для службы "Речь" стал более эффективным и компактным. Мы начали работу, охватывающую несколько выпусков, чтобы сократить потребность пакета SDK для службы "Речь" в памяти и дисковом пространстве. В качестве первого шага мы значительно сократили размер файлов в общедоступных библиотеках на большинстве платформ. По сравнению с выпуском 1.14:
    • библиотеки Windows, совместимые с 64-bit UWP, меньше по размеру примерно на 30 %;
    • 32-разрядные библиотеки Windows пока не видят улучшения размера.
    • библиотеки Linux меньше по размеру на 20–25 %;
    • библиотеки Android меньше по размеру на 3–5 %.

новые функции;

  • Все: новые форматы выходных данных 48 КГц, доступные для частной предварительной версии пользовательского нейронного голоса через API синтеза речи TTS: Audio48Khz192 КБ itRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96 КБ itRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Все: пользовательский голос также стал проще в использовании. Добавлена поддержка настройки пользовательского голоса через EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Перед внесением этого изменения пользователям пользовательского голоса требовалось задавать URL-адрес конечной точки, используя метод FromEndpoint. Теперь клиенты могут использовать метод FromSubscription так же, как предварительно созданные голоса, и указывать идентификатор развертывания, задавая параметр EndpointId. Это упрощает настройку пользовательских голосов.
  • C++/C#/Java/Objective-C/Python: получение из IntentRecognizer не только информации об общем намерении. Теперь поддерживается настройка результата JSON, содержащего все намерения, а не только намерение с самой высокой оценкой, посредством метода LanguageUnderstandingModel FromEndpoint, с помощью параметра URI verbose=true. Это решает проблему GitHub #880. См. обновленную документацию здесь.
  • C++/C#/Java: команда немедленно прерывать прослушивание для голосового помощника или бота. В DialogServiceConnector (C++, C#, Java) теперь имеется метод StopListeningAsync() в дополнение к ListenOnceAsync(). Это действие будет немедленно останавливать захват аудио и корректно дожидаться результата, благодаря чему оно идеально подходит для использования с нажатием кнопки "Остановить сейчас".
  • C++/C#/Java/JavaScript: более четкая реакция голосового помощника или бота на базовые системные ошибки. В DialogServiceConnector (C++, C#, Java, JavaScript) теперь имеется новый обработчик событий TurnStatusReceived. Эти необязательные события соответствуют каждому разрешению ITurnContext в боте и будут сообщать о сбоях при выполнении, например в результате необработанного исключения, истечения времени ожидания или сетевого сброса между Direct Line Speech и ботом. TurnStatusReceived упрощает реагирование на условия сбоя. Например, если бот отнимает слишком много времени в запросе серверной базы данных (например, при поиске продукта), с помощью TurnStatusReceived клиент может узнать о необходимости повторного запроса, получив примерно такое сообщение: "Простите, информация не вполне ясна, не могли бы вы повторить".
  • C++/C# : использование Пакета SDK для службы "Речь" на большем количестве платформ. Пакет Speech SDK NuGet теперь поддерживает собственные двоичные файлы Windows ARM/ARM64 Desktop (UWP уже поддерживался ранее), благодаря чему Пакет SDK для службы "Речь" можно эффективнее использовать на большем количестве типов компьютеров.
  • Java: в DialogServiceConnector теперь имеется метод setSpeechActivityTemplate(), непреднамеренно исключенный из языка ранее. Это эквивалентно заданию свойства Conversation_Speech_Activity_Template и будет запрашивать, чтобы все будущие действия Bot Framework, инициированные службой Direct Line Speech, объединяли предоставляемое содержимое в своих полезных данных JSON.
  • Java: усовершенствована отладка на низком уровне. В классе Connection теперь есть событие MessageReceived, аналогичное другим языкам программирования (C++, C#). Это событие обеспечивает низкоуровневый доступ к входящим данным от службы и может быть полезно для целей диагностики и отладки.
  • JavaScript: упрощена настройка Голосовых помощников и ботов с помощью BotFrameworkConfig, где теперь имеются фабричные методы fromHost() и fromEndpoint(), упрощающие использование обнаружения пользовательских служб в сравнении с настройкой свойств вручную. Также стандартизована необязательная спецификация botId для использования бота, отличного от используемого по умолчанию, между фабриками конфигурации.
  • JavaScript: повышена производительность на устройствах за счет добавления свойства контроля строки для сжатия WebSocket. Исходя из соображений производительности, мы отключили сжатие WebSocket по умолчанию. Его можно снова включать для сценариев с низкой пропускной способностью. Дополнительные сведения см. здесь. Это решает проблему GitHub #242.
  • JavaScript: добавлена поддержка оценки произношения, что дает возможность оценить произношение в речи. См. краткое руководство здесь.

Исправления ошибок

  • Все (кроме JavaScript): исправлена регрессия в версии 1.14, вследствие которой распознаватель выделял слишком много ресурсов памяти.
  • C++ : исправлена ошибка сборки мусора, связанная с DialogServiceConnector, что устраняет проблему GitHub #794.
  • C# : исправлена проблема с завершением работы потока, из-за которой объекты блокировались примерно на секунду при удалении.
  • C++/C#/Java: исправлено исключение, из-за которого приложению не удавалось задать маркер авторизации речи или шаблон действия более одного раза в DialogServiceConnector.
  • C++/C#/Java: устранен сбой распознавателя из-за состояния гонки в деинициализации.
  • JavaScript: DialogServiceConnector ранее не учитывал необязательный параметр botId, указанный в фабриках BotFrameworkConfig. Из-за этого требовалось задавать параметр строки запроса botId вручную для использования бота, отличного от используемого по умолчанию. Ошибка исправлена, и значения botId, предоставленные фабрикам BotFrameworkConfig, будут учитываться и использоваться, включая новые добавления fromHost() и fromEndpoint(). Это также относится к параметру applicationId для CustomCommandsConfig.
  • JavaScript: устранена проблема 881 в GitHub, что дает возможность повторно использовать объект распознавателя.
  • JavaScript: устранена проблема, вследствие которой SKD отправлял speech.config несколько раз в одном сеансе TTS, что приводило к непродуктивному расходу пропускной способности.
  • JavaScript: упрощенная обработка ошибок при авторизации микрофона, что позволяет более описательное сообщение пузыриться, когда пользователь не разрешил входные данные микрофона в браузере.
  • JavaScript: исправлена ошибка GitHub #249, вследствие которой ошибки в ConversationTranslator и ConversationTranscriber вызывали ошибку компиляции для пользователей TypeScript.
  • Objective-C: устранена проблема, вследствие которой происходил сбой сборки GStreamer для iOS в Xcode 11.4, что устраняет проблему GitHub #911.
  • Python: устранена проблема GitHub #870, благодаря чему удалено сообщение "DeprecationWarning: the imp module is deprecated in favor of importlib".

примеры

Пакет SDK для службы "Речь" 1.14.0. Выпуск за октябрь 2020 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Его можно скачать здесь.

новые функции;

  • Linux: добавлена поддержка Debian 10 и Ubuntu 20.04 LTS.
  • Python/Objective-C: добавлена поддержка API KeywordRecognizer. Документация будет доступна здесь.
  • C++/Java/C# : добавлена поддержка задания любых ключей/значений HttpHeader через ServicePropertyChannel::HttpHeader.
  • JavaScript: добавлена поддержка API ConversationTranscriber. Изучите документацию здесь.
  • C++/C# : добавлен новый метод AudioDataStream FromWavFileInput (для чтения файлов .WAV), доступный здесь (C++) и здесь (C#).
  • C++/C#/Java/Python/Objective-C/Swift: добавлен stopSpeakingAsync() метод для остановки синтеза текста в речь. См. справочную документацию здесь (C++), здесь (C#), здесь (Java), здесь (Python) и здесь (Objective-C/Swift).
  • C#, C++, Java: добавлена функция FromDialogServiceConnector() в классе Connection, которой можно пользоваться в целях мониторинга событий подключения и отключения для DialogServiceConnector. См. справочную документацию здесь (C#), здесь (C++) и здесь (Java).
  • C++/C#/Java/Python/Objective-C/Swift: добавлена поддержка функции оценки произношения, которая оценивает произношение и дает отзыв о точности и плавности речи говорящего. Изучите документацию здесь.

Критическое изменение

  • JavaScript: для PullAudioOutputStream.read() тип возвращаемого значения изменен с внутреннего обещания на собственное обещание JavaScript.

Исправления ошибок

  • Все: исправлена регрессия 1.13 в SetServiceProperty, вследствие которой игнорировались значения с определенными специальными символами.
  • C# : исправлены примеры консоли Windows в Visual Studio 2019, в которых возникал сбой нахождения собственных библиотек DLL.
  • C# : устранен сбой в управлении памятью, который возникал, если поток использовался в качестве входных данных KeywordRecognizer.
  • ObjectiveC/Swift: устранен сбой в управлении памятью, возникавший, если поток использовался в качестве входных данных распознавателя.
  • Windows: устранена проблема сосуществования с BT HFP/A2DP на UWP.
  • JavaScript: скорректировано сопоставление идентификаторов сеансов для оптимизации ведения журналов и поддержки внутренних корреляций отладки/служб.
  • JavaScript: добавлено исправление для DialogServiceConnector, отключающее вызовы ListenOnce после первого вызова.
  • JavaScript: устранена проблема, вследствие которой выходной результат мог иметь только формат Simple.
  • JavaScript: исправлена проблема непрерывного распознавания в Safari на macOS.
  • JavaScript: выполнена миграция нагрузки ЦП для сценария с высокой пропускной способностью запросов.
  • JavaScript: разрешен доступ к сведениям о результатах регистрации речевого профиля.
  • JavaScript: добавлено исправление для непрерывного распознавания в IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: исправлен некорректный URL-адрес для australiaeast и brazilsouth в IntentRecognizer.
  • C++/C# : VoiceProfileType добавлен в качестве аргумента при создании объекта VoiceProfile.
  • C++/C#/Java/Python/Swift/ObjectiveC: исправлен потенциальный SPX_INVALID_ARG при попытке считывания AudioDataStream из заданной позиции.
  • IOS: исправлен сбой при распознавании речи в Unity

примеры

  • ObjectiveC: добавлен пример распознавания ключевого слова, доступный здесь.
  • C#/JavaScript: добавлено краткое руководство по транскрибированию бесед, доступное здесь (C#) и здесь (JavaScript).
  • C++/C#/Java/Python/Swift/ObjectiveC: добавлен пример оценки произношения, доступный здесь
  • Xamarin: краткое руководство обновлено до новейшего шаблона Visual Studio и доступно здесь.

Известная проблема

  • Сертификат DigiCert Global Root G2 не поддерживается по умолчанию в HoloLens 2 и Android 4.4 (KitKat) и должен быть добавлен в систему, чтобы пакет SDK для службы "Речь" функционировал. Сертификат будет добавлен в образы ОС HoloLens 2 уже в ближайшем будущем. Клиентам Android 4.4 необходимо добавить обновленный сертификат в систему.

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.13.0. Выпуск за июль 2020 г.

Примечание

Пакет SDK для службы "Речь" в Windows зависит от общедоступного Распространяемого компонента Visual C++ для Visual Studio 2015, 2017 и 2019. Скачайте и установите приложение отсюда.

новые функции;

  • C# : добавлена поддержка асинхронного транскрибирования бесед. См. документацию здесь.
  • JavaScript: включена поддержка распознавания говорящего для браузера и Node.js.
  • JavaScript: добавлена поддержка функции идентификации языка и идентификатора языка. См. документацию здесь.
  • Objective-C: добавлена поддержка беседы с несколькими устройствами и транскрибирования бесед.
  • Python: добавлена поддержка сжатого звука для Python в Windows и Linux. См. документацию здесь.

Исправления ошибок

  • Все: исправлена проблема, вследствие которой KeywordRecognizer не перенаправлял потоки после распознавания.
  • Все: исправлена проблема, из-за которой поток, полученный из KeywordRecognitionResult, не содержал ключевое слово.
  • Все. Исправлена проблема, из-за которой sendMessageAsync не отправлял сообщение по проводу после того, как пользователи завершат ожидание.
  • Все: устранен сбой в API распознавания говорящего, который возникал, когда пользователи вызывали метод VoiceProfileClient:SpeakerRecEnrollProfileAsync несколько раз и не дожидались завершения вызовов.
  • Все: исправлено разрешение на ведение журнала файлов в классах VoiceProfileClient и SpeakerRecognizer.
  • JavaScript: устранена проблема с регулированием полосы пропускания при сворачивании браузера.
  • JavaScript: устранена проблема с утечкой памяти в потоках.
  • JavaScript: добавлено кэширование для ответов OCSP из NodeJS.
  • Java: устранена проблема, приводившая к тому, что поля BigInteger всегда возвращали 0.
  • iOS: исправлена проблема с публикацией приложений на основе Пакета SDK для службы "Речь" в магазине приложений iOS.

примеры

  • C++ : добавлен пример кода для распознавания говорящего, который доступен здесь.

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.12.1. Выпуск за июнь 2020 г.

новые функции;

Исправления ошибок

  • C#, C++: фиксированная запись микрофона не работала в версии 1.12 в распознавании говорящего.
  • JavaScript: исправление речи текста в Firefox и Safari в macOS и iOS.
  • Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при транскрибировании бесед с использованием восьмиканального потока.
  • Устранена ошибка нарушения прав доступа в инструменте проверки приложений Windows при переводе бесед на нескольких устройствах.

примеры

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. В том маловероятном случае, если мы что-либо упустили из виду, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.12.0. Выпуск за май 2020 г.

новые функции;

  • Go: новая языковая поддержка Go для распознавания речи и пользовательского голосового помощника. Настройте среду разработки здесь. Пример кода см. в разделе примеров ниже.
  • JavaScript: добавлена поддержка браузера для преобразования текста в речь. См. документацию здесь.
  • C++, C#, Java: новый объект KeywordRecognizer и API, поддерживаются на платформах Windows, Android, Linux и iOS. Изучите документацию здесь. Пример кода см. в разделе примеров ниже.
  • Java: добавлена беседа с участием нескольких устройств с поддержкой перевода. См. справочную документацию здесь.

Улучшения и оптимизации

  • JavaScript. оптимизирована реализация микрофона браузера, благодаря чему улучшается точность распознавания речи.
  • Java: выполнен рефакторинг привязок с использованием прямой реализации JNI без SWIG. Это изменение в 10 раз сокращает размер привязок для всех пакетов Java, используемых для Windows, Android, Linux и Mac, и упрощает дальнейшую разработку реализации Пакета SDK для службы "Речь" в Java.
  • Linux: обновлена документация поддержки, в нее включены новейшие комментарии к RHEL 7.
  • Улучшена логика подключения для многократных попыток подключения при возникновении ошибок в службе и сети.
  • Обновлена страница краткого руководства по portal.azure.com распознаванию речи, чтобы помочь разработчикам выполнить следующий шаг в пути распознавания речи искусственного интеллекта Azure.

Исправления ошибок

  • C#, Java: устранена проблема с загрузкой библиотек SDK на ARM Linux (в обоих вариантах: 32 bit и 64 bit).
  • C#: скорректирована проблема явного удаления собственных дескрипторов для объектов TranslationRecognizer, IntentRecognizer и Connection.
  • C# : скорректировано управление временем существования звукового ввода для объекта ConversationTranscriber.
  • Исправлена проблема, из-за IntentRecognizer которой причина результата не была задана должным образом при распознавании намерений из простых фраз.
  • Исправлена проблема, из-за которой SpeechRecognitionEventArgs смещение результата не было задано правильно.
  • Исправлено состояние гонки, в котором пакет SDK пытался отправить сетевое сообщение до открытия подключения WebSocket. Воспроизводилось для TranslationRecognizer во время добавления участников.
  • Скорректированы утечки памяти в подсистеме распознавателя ключевых слов.

примеры

Усеченное тестирование в связи с COVID-19

Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования вручную. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою, а все наши автоматические тесты прошли успешно. Если мы пропустили что-нибудь, сообщите нам об этом на GitHub.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.11.0. Выпуск за март 2020 г.

новые функции;

  • Linux: добавлена поддержка Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 с инструкциями по настройке системы для Пакета SDK для службы "Речь".
  • Linux: добавлена поддержка .NET Core C# в Linux ARM32 и ARM64. Дополнительные сведения см. здесь.
  • C#, C++: добавлен UtteranceId в ConversationTranscriptionResult, единообразный идентификатор для всех промежуточных и конечных результатов распознавания речи. Подробная информация для C#, C++.
  • Python: добавлена поддержка для Language ID. См. speech_sample.py в репозитории GitHub.
  • Windows: добавлена поддержка сжатого формата звукового ввода на платформе Windows для всех консольных приложений Win32. Подробные сведения см. здесь.
  • JavaScript: поддержка синтеза речи (текста в речь) в NodeJS. Дополнительные сведения см. здесь.
  • JavaScript: добавлены новые API для возможности проверки всех отправленных и полученных сообщений. Дополнительные сведения см. здесь.

Исправления ошибок

  • C#, C++: исправлена проблема, благодаря чему SendMessageAsync теперь отправляет двоичное сообщение в двоичном формате. Подробная информация для C#, C++.
  • C#, C++: исправлена проблема, из-за которой использование события Connection MessageReceived могло вызвать сбой, если Recognizer удалялось до объекта Connection. Подробная информация для C#, C++.
  • Android: размер буфера аудиоданных с микрофона уменьшен с 800 до 100 мс для оптимизации задержки.
  • Android: исправлена проблема с эмулятором Android для x86 в Android Studio.
  • JavaScript: добавлена поддержка регионов в Китае с API fromSubscription. Подробные сведения см. здесь.
  • JavaScript: добавлены дополнительные сведения об ошибках, касающиеся сбоев подключения из NodeJS.

примеры

  • Unity: исправлен общедоступный пример распознавания намерений, в котором возникал сбой импорта LUIS json. Подробные сведения см. здесь.
  • Python: добавлен пример для Language ID. Подробные сведения см. здесь.

Усеченное тестирование в связи с COVID-19. Поскольку в последние несколько недель работа осуществлялась удаленно, мы не смогли выполнить обычный объем тестирования на устройствах вручную. Например, нам не удалось протестировать входные данные микрофона и выходные данные динамика в Linux, iOS и macOS. Мы не внесли никаких изменений, которые, по нашему мнению, могли бы привести к какому-либо сбою на этих платформах, а все наши автоматические тесты прошли успешно. В маловероятном случае, что мы пропустили что-то, дайте нам знать на GitHub.
Благодарим вас за постоянную поддержку. Пожалуйста, направляйте вопросы и отзывы в GitHub или Stack Overflow.
Будьте здоровы!

Пакет SDK для службы "Речь" 1.10.0. Выпуск за февраль 2020 г.

новые функции;

  • Добавлены пакеты Python для поддержки нового выпуска Python 3.8.
  • Поддержка Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Примечание

    Клиенты должны настраивать OpenSSL в соответствии с этими инструкциями.

  • Поддержка Debian и Ubuntu в Linux ARM32.
  • DialogServiceConnector теперь поддерживает необязательный параметр "Идентификатор бота" в BotFrameworkConfig. Этот параметр позволяет использовать несколько ботов прямой речи с одним ресурсом службы "Речь". Если параметр не указан, будет использоваться бот, выбираемый по умолчанию (как определено на странице конфигурации канала Direct Line Speech).
  • В DialogServiceConnector теперь имеется свойство SpeechActivityTemplate. Содержимое этой строки JSON будет использоваться в Direct Line Speech для предварительного заполнения различных поддерживаемых полей при всех действиях, которые связываются с ботом Direct Line Speech, включая действия, автоматически генерируемые в ответ на события, например распознавание речи.
  • Теперь функция TTS использует для аутентификации ключ подписки, уменьшая задержку первого байта в первом результате синтеза после создания синтезатора.
  • Обновлены модели распознавания речи для 19 языковых стандартов, при этом средняя частота ошибок в словах сократилась на 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Новые модели обеспечивают значительные улучшения в различных аспектах, включая транскрибирование звонков центра обработки вызовов и сценарии индексирования видео.

Исправления ошибок

  • Исправлена ошибка, из-за которой у Conversation Transcriber отсутствовало корректное ожидание в API JAVA.
  • Исправлена ошибка эмулятора Android x86, которая создавала для Xamarin проблему GitHub.
  • В AudioConfig добавлены отсутствующие методы (Get|Set)Property.
  • Исправлена ошибка TTS, вследствие которой не удавалось остановить audioDataStream в случае сбоя подключения.
  • Использование конечной точки без региона вызвало сбои USP в трансляторе беседы.
  • При генерировании идентификаторов в универсальных приложениях Windows теперь используется алгоритм GUID с корректной уникальностью; ранее он непреднамеренно использовал по умолчанию суррогатную реализацию, которая часто создавала конфликты в больших наборах взаимодействий.

примеры

Другие изменения

Пакет SDK для службы "Речь" 1.9.0. Выпуск за январь 2020 г.

новые функции;

  • Беседы с использованием нескольких устройств: подключение нескольких устройств к одной речевой или текстовой беседе и, при необходимости, перевод передаваемых между ними сообщений. Дополнительные сведения см. в этой статье.
  • Добавлены поддержка распознавания ключевых слов для пакета Android .aar и поддержка для вариантов x86 и x64.
  • Objective-C: методы SendMessage и SetMessageProperty добавлены в объект Connection. См. документацию здесь.
  • API TTS C++ теперь поддерживает std::wstring в качестве текстового ввода для синтеза, что устраняет необходимость преобразовывать wstring в строку перед ее передачей в пакет SDK. Дополнительные сведения см. здесь.
  • C#: стали доступны идентификатор языка и настройка языка исходного кода.
  • JavaScript: в объект Connection добавлена функция передачи пользовательских сообщений из службы "Речь" в формате обратного вызова receivedServiceMessage.
  • JavaScript: добавлена поддержка FromHost API упрощения использования с локальными контейнерами и суверенными облаками. См. документацию здесь.
  • JavaScript: теперь мы учитываем NODE_TLS_REJECT_UNAUTHORIZED благодаря вкладу orgads. Дополнительные сведения см. здесь.

Критические изменения

  • OpenSSL обновлен до версии 1.1.1b и статически привязан к основной библиотеке пакета SDK для службы "Речь" для Linux. Это может привести к разрыву, если папка "Входящие OpenSSL " не была установлена в /usr/lib/ssl каталоге в системе. Ознакомьтесь с нашей документацией в документации по пакету SDK службы "Речь", чтобы обойти проблему.
  • Изменен тип данных, возвращаемых для C# WordLevelTimingResult.Offset с int на long, чтобы разрешить доступ к WordLevelTimingResults когда речевые данные имеют длительность больше 2 минут.
  • PushAudioInputStream и PullAudioInputStream теперь отправляют данные заголовка WAV в службу "Речь" на основе AudioStreamFormat, дополнительно задаваемого при их создании. Впредь клиенты должны использовать поддерживаемый входной формат аудио. Любые другие форматы будут выдавать неоптимальные результаты распознавания или могут вызвать другие проблемы.

Исправления ошибок

  • См. обновление OpenSSL выше, в разделе “Критические изменения”. Исправлены сбои временного характера и проблемы с производительностью (конфликт при блокировках в состоянии высокой нагрузки) в Linux и Java.
  • Java: оптимизировано замыкание объектов в сценариях с высоким уровнем параллелизма.
  • Реструктуризован пакет NuGet. Удалены три копии Microsoft.CognitiveServices.Speech.core.dll и Microsoft.CognitiveServices.Speech.extension.kws.dll в папках lib, благодаря чему пакет NuGet стал меньше по размеру и быстрее скачивается, и добавлены заголовки, необходимые для компиляции ряда собственных приложений C++.
  • Исправлены примеры из краткого руководства, доступные здесь. Это был выход без отображения исключения "Микрофон не найден" в Linux, macOS, Windows.
  • Исправлен сбой пакета SDK, связанный с результатами распознавания длительной речи на некоторых путях к коду, как в этом примере.
  • Исправлена ошибка развертывания пакета SDK в рабочей среде Azure Web App для решения этой проблемы клиента.
  • Исправлена ошибка TTS при использовании нескольких тегов <voice> или <audio> для решения этой проблемы клиента.
  • Исправлена ошибка TTS 401, возникавшая при восстановлении пакета SDK из приостановленного состояния.
  • JavaScript: исправлен циклический импорт звуковых данных благодаря вкладу euirim.
  • JavaScript: добавлена поддержка настройки свойств службы, добавленных в 1.7.
  • JavaScript: устранена проблема, из-за которой ошибка подключения могла приводить к возникновению непрерывных неудачных попыток повторного подключения WebSocket.

примеры

  • Добавлен пример распознавания ключевых слов для Android, доступный здесь.
  • Добавлен пример TTS для серверного сценария, доступный здесь.
  • Добавлены краткие руководства по беседам с нескольких устройств для C# и C++, доступные здесь.

Другие изменения

  • Оптимизирован размер базовой библиотеки SDK на Android.
  • Пакет SDK в 1.9.0 и последующих версиях поддерживает типы int и string в поле версии голосовой подписи для инструмента транскрибирования бесед.

Пакет SDK для службы "Речь" 1.8.0. Выпуск за ноябрь 2019 г.

новые функции;

  • Добавлен FromHost() API для упрощения использования с локальными контейнерами и независимыми облаками.
  • Добавлена идентификация исходного языка для распознавания речи (в Java и C ++)
  • Добавлен объект SourceLanguageConfig для распознавания речи, используемый для задания ожидаемых исходных языков (в Java и C++).
  • Добавлена поддержка KeywordRecognizer в Windows (UWP), Android и iOS через пакеты NuGet и Unity
  • Добавлен API удаленной беседы в Java для транскрибирования бесед в асинхронных пакетах.

Критические изменения

  • Функционал инструмента транскрибирования бесед перенесен в пространство имен Microsoft.CognitiveServices.Speech.Transcription.
  • Части методов инструмента транскрибирования бесед перенесены в новый класс Conversation.
  • Удалена поддержка 32-bit (ARMv7 и x86) iOS

Исправления ошибок

  • Исправлен сбой, возникавший, если локальная KeywordRecognizer использовалась без допустимого ключа подписки на Службу речи

примеры

  • Пример Xamarin для KeywordRecognizer
  • Пример Unity для KeywordRecognizer
  • Примеры C++ и Java для автоматической идентификации исходного языка.

Пакет SDK для службы "Речь" 1.7.0. Выпуск за сентябрь 2019 г.

новые функции;

  • Добавлена поддержка бета-версии для Xamarin на универсальной платформе Windows (UWP), Android и iOS.
  • Добавлена поддержка iOS для Unity
  • Добавлена поддержка ввода Compressed для ALaw, Mulaw, FLAC в Android, iOS и Linux
  • Добавлено SendMessageAsync в классе Connection для отправки сообщения в службу.
  • Добавлено SetMessageProperty в классе Connection для задания свойства сообщения
  • В TTS добавлены привязки для Java (JRE и Android), Python, Swift и Objective-C.
  • В TTS добавлена поддержка воспроизведения для macOS, iOS и Android.
  • Добавлены сведения о границах слов для TTS.

Исправления ошибок

  • Исправлена проблема сборки IL2CPP в Unity 2019 для Android.
  • Исправлена ошибка некорректной обработки неправильно сформированных заголовков во входных файлах WAV.
  • Устранена проблема с UUID, которые не были уникальны в некоторых свойствах подключения.
  • Исправлены несколько предупреждений о спецификаторах допустимости значений NULL в привязках Swift (могут потребоваться небольшие изменения в коде).
  • Исправлена ошибка, которая приводила к некорректному закрытию подключений WebSocket при сетевой нагрузке.
  • Исправлена проблема с Android, которая время от времени приводила к дублированию идентификаторов воссоздания, используемых в DialogServiceConnector.
  • Улучшены стабильность подключений для многоэтапных взаимодействий и отчеты о сбоях (через события Canceled) при их возникновении в DialogServiceConnector.
  • При запуске сеансов DialogServiceConnector теперь будут корректно предоставляться события, в том числе при вызове ListenOnceAsync() во время активного StartKeywordRecognitionAsync().
  • Решена проблема сбоев, связанная с получением действий DialogServiceConnector

примеры

  • Краткое руководство по Xamarin
  • Обновлено краткое руководство по CPP, внесена информация о Linux ARM64.
  • Обновлено краткое руководство по Unity, внесена информация об iOS.

Пакет SDK для службы "Речь" 1.6.0. Выпуск за июнь 2019 г.

примеры

  • Примеры краткого руководства для преобразования текста в речь на UWP и Unity
  • Пример краткого руководства для Swift в iOS
  • Примеры Unity для распознавания речи и намерений и перевода
  • Обновленные примеры краткого руководства для DialogServiceConnector

Улучшения и изменения

  • Пространство имен диалогового окна:
    • SpeechBotConnector был переименован в DialogServiceConnector.
    • BotConfig был переименован в DialogServiceConfig.
    • BotConfig::FromChannelSecret() был переназначен в DialogServiceConfig::FromBotSecret().
    • Все существующие клиенты Direct Line Speech продолжают поддерживаться после переименования.
  • Адаптер TTS REST обновлен для поддержки прокси-сервера, постоянного подключения.
  • Уточнено сообщение об ошибке при передаче недопустимого региона.
  • Swift/Objective-C:
    • Улучшена отчетность об ошибках: методы, которые могут приводить к ошибке, теперь присутствуют в двух версиях: одна из них предоставляет объект NSError для обработки ошибок, другая вызывает исключение. Первая из них предоставляет данные для Swift. Это изменение требует внесения адаптаций в существующий код Swift.
    • Улучшенная обработка событий

Исправления ошибок

  • Исправление ошибки в TTS, при которой будущее SpeakTextAsync возвращалось без ожидания завершения обработки звука
  • Исправление для строк маршалинга в C# с целью обеспечения полной языковой поддержки
  • Исправление проблемы с приложением .NET Core при загрузке основной библиотеки с использованием net461 Target Framework в примерах
  • Устранение редко возникающих проблем при развертывании собственных библиотек в выходной папке в примерах
  • Исправление для обеспечения надежного закрытия Web Socket
  • Устранение возможных сбоев при открытии подключения в условиях высокой нагрузки в Linux
  • Исправление для устранения отсутствующих метаданных в пакете платформы для macOS
  • Устранение проблем с pip install --user в Windows

Пакет SDK для службы "Речь" 1.5.1

Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.

Исправления ошибок

  • Исправлена ошибка в FromSubscription при использовании с функцией Транскрибирования бесед.
  • Исправлена ошибка в выявлении ключевых слов для голосовых помощников.

Пакет SDK для службы "Речь" 1.5.0. Выпуск за май 2019 г.

новые функции;

  • Для Windows и Linux стало доступно выявление ключевых слов (KWS). Функции KWS могут работать с микрофонами любого типа, однако официальная поддержка KWS в настоящее время ограничена микрофонами, находящимися в оборудовании Azure Kinect DK или в пакете SDK для речевых устройств.
  • Функции подсказки фраз доступны через пакет SDK. Дополнительные сведения см. здесь.
  • Функции транскрибирования бесед доступны через пакет SDK.
  • Добавлена поддержка голосовых помощников с использованием канала Direct Line Speech.

примеры

  • Добавлены примеры для новых функций и новых служб, поддерживаемых пакетом SDK.

Улучшения и изменения

  • Добавлены различные свойства распознавателя для настройки поведения службы и результатов ее работы (включая, например, маскирование ненормативной лексики).
  • Теперь можно настроить распознаватель посредством стандартных свойств конфигурации, даже если создан распознаватель FromEndpoint.
  • Objective-C: свойство OutputFormat добавлено в SPXSpeechConfiguration.
  • Теперь пакет SDK поддерживает Debian 9 в качестве дистрибутива Linux.

Исправления ошибок

  • Исправлена проблема, из-за которой ресурс говорящего был деструктировался слишком рано в тексте речи.

Пакет SDK для службы "Речь" 1.4.2

Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.

Пакет SDK для службы "Речь" 1.4.1

Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:

  • Блокировка в веб-пакете загрузки https-proxy-agent.

Пакет SDK для службы "Речь" 1.4.0. Выпуск за апрель 2019 г.

новые функции;

  • Пакет SDK теперь поддерживает службу "Текст в речь" в качестве бета-версии. Он поддерживается в Windows и Linux Desktop из C++ и C#. Дополнительные сведения проверка обзор текста в речь.
  • Теперь пакет SDK поддерживает звуковые файлы MP3 и Opus/OGG в формате потоковых входных файлов. Эта функция доступна только в Linux из C++ и C# и сейчас находится на уровне бета-версии (дополнительные сведения см. здесь).
  • SDK для службы "Речь" для Java, .NET Core, C++ и Objective-C получил поддержку macOS. Поддержка Objective-C для macOS в настоящее время находится на уровне бета-версии.
  • iOS: SDK для службы "Речь" для iOS (Objective-C) теперь также опубликован в формате CocoaPod.
  • JavaScript: поддержка микрофона, отличного от используемого по умолчанию, в качестве устройства ввода.
  • JavaScript: поддержка прокси-сервера для Node.js.

примеры

  • Добавлены примеры использования пакета SDK для службы "Речь" с C++ и с Objective-C в macOS.
  • Добавлены примеры, демонстрирующие использование службы "Текст для речи".

Улучшения и изменения

  • Python: через свойство properties стали доступны дополнительные свойства результатов распознавания.
  • Для дополнительной поддержки разработки и отладки можно перенаправлять данные журналов и диагностики пакета SDK в файл журнала (дополнительные сведения см. здесь).
  • JavaScript: повышена производительность обработки звука.

Исправления ошибок

  • Mac/iOS: устранена ошибка, которая приводила к длительному ожиданию, когда не удавалось установить подключение к службе "Речь".
  • Python: улучшена обработка ошибок в отношении аргументов в обратных вызовах Python.
  • JavaScript: исправлена неверная отчетность о состоянии для речи, завершенной в RequestSession.

Пакет SDK для службы "Речь" 1.3.1. Обновление за февраль 2019 г.

Этот выпуск служит для исправления ошибок и затрагивает только пакет SDK для машинного/управляемого кода. Он не затрагивает версию пакета SDK для JavaScript.

Исправление ошибок

  • Устранена утечка памяти при использовании ввода с микрофона. Потоковый и файловый ввод не затронуты.

Пакет SDK для службы "Речь" 1.3.0. Выпуск за февраль 2019 г.

новые функции;

  • Пакет SDK для службы "Речь" поддерживает выбор микрофонного входа, используя класс AudioConfig. Это дает возможность выполнять потоковую передачу аудиоданных в службу "Речь" с микрофона, не выбранного по умолчанию. Дополнительные данные см. в документации о выборе устройств для получения аудиоданных. Эта возможность пока недоступна из JavaScript.
  • Пакет SDK для службы "Речь" теперь поддерживает Unity в бета-версии. Оставьте отзыв в разделе проблем репозитория GitHub с примерами. Текущий выпуск поддерживает Unity на 32- или 64-разрядной ОС Windows (классическое приложение или приложение универсальной платформы Windows) и Android (32- или 64-разрядная архитектура ARM). Дополнительные сведения можно найти в кратком руководстве по Unity.
  • Файл Microsoft.CognitiveServices.Speech.csharp.bindings.dll (предоставлявшийся в предыдущих выпусках) впредь не требуется. Теперь функциональные возможности интегрированы в базовый пакет SDK.

примеры

В нашем репозитории с примерами размещено следующее новое содержимое:

  • дополнительные примеры для AudioConfig.FromMicrophoneInput;
  • дополнительные примеры Python для распознавания намерений и перевода;
  • дополнительные примеры по использованию объекта Connection в iOS;
  • дополнительные примеры на Java для перевода с выводом звуковых данных;
  • новый пример использования REST API пакетного транскрибирования.

Улучшения и изменения

  • Python
    • Улучшены проверка параметров и сообщения об ошибках в SpeechConfig.
    • Добавлена поддержка для объекта Connection.
    • Поддержка 32-разрядной версии Python (x86) на Windows.
    • Выпущена бета-версия пакета SDK службы "Речь" для Python.
  • iOS
    • Пакет SDK теперь компилируется с пакетом SDK для iOS версии 12.1.
    • Пакет SDK теперь поддерживает версию iOS 9.2 и более поздние версии.
    • Улучшена справочная документация и исправлены несколько имен свойств.
  • JavaScript
    • Добавлена поддержка для объекта Connection.
    • Добавлены файлы определений типов для объединенного файла JavaScript.
    • Первичная поддержка и реализация подсказок для фраз.
    • Возвращается коллекция свойств с шаблоном JSON для службы распознавания.
  • Библиотеки DLL для Windows теперь содержат ресурс версии.
  • При создании распознавателя FromEndpoint можно добавлять параметры непосредственно в URL-адрес конечной точки. Используя FromEndpoint, невозможно настроить распознаватель с помощью стандартных свойств конфигурации.

Исправления ошибок

  • Неправильно обрабатывались пустые значения для имени пользователя и пароля прокси-сервера. В этом выпуске при установке имени пользователя прокси-сервера и пароля прокси-сервера в пустую строку они не будут отправляться при подключении к прокси-серверу.
  • Создаваемый пакетом SDK идентификатор сеанса (SessionId) в некоторых языках и средах не был достаточно случайным. Для устранения этой проблемы добавлена инициализация генератора случайных чисел.
  • Улучшена обработка маркера авторизации. Чтобы использовать маркер авторизации, следует указать это в SpeechConfig и оставить пустым значение ключа подписки. После этого создайте распознаватель обычным образом.
  • В некоторых ситуациях объект Connection освобождался некорректно. Теперь эта проблема устранена.
  • Исправлен пример JavaScript для поддержки аудиовыхода для синтеза перевода в браузере Safari.

Пакет SDK для службы "Речь" 1.2.1

Это выпуск только для JavaScript. В нем нет никаких новых возможностей. Устранены следующие проблемы:

  • Срабатывание завершения потока по turn.end вместо speech.end.
  • Исправлена ошибка в конвейере аудио, которая мешала запланировать новую отправку при сбое текущей отправки.
  • Исправлено непрерывное распознавание с маркером проверки подлинности.
  • Исправлены ошибки для некоторых распознавателей и конечных точек.
  • Улучшена документация.

Пакет SDK для службы "Речь" 1.2.0. Выпуск за декабрь 2018 г.

новые функции;

  • Python
    • В этом выпуске доступна бета-версия поддержки Python (3.5 и более поздних версий). Дополнительные сведения см. здесь (../../quickstart-python.md).
  • JavaScript
    • Пакет SDK для службы "Речь" для JavaScript преобразован в ресурс с открытым исходным кодом. Исходный код доступен на сайте GitHub.
    • Добавлена поддержка Node.js. Дополнительные сведения можно найти здесь.
    • Ограничение длины для аудиосеансов снято, повторное подключение происходит автоматически.
  • Connection Объекта
    • Из Recognizer можно получить доступ к объекту Connection. Этот объект позволяет явно инициировать подключение к службе и подписаться на события подключения и отключения. (Эта возможность пока недоступна из JavaScript и Python.)
  • Поддержка Ubuntu 18.04.
  • Android
    • Включена поддержка ProGuard во время создания пакета APK.

Улучшения

  • Улучшения в использовании внутреннего потока, сокращение числа потоков, блокировок, взаимных исключений.
  • Улучшены сведения и сообщения об ошибках. В нескольких случаях сообщения об ошибках не были распространены во всем выходе.
  • Изменены зависимости разработки в JavaScript, чтобы использовать модули последних версий.

Исправления ошибок

  • Исправлены утечки памяти из-за несоответствия типов в RecognizeAsync.
  • В некоторых случаях возникала утечка исключений.
  • Исправление утечки памяти в аргументах событий перевода.
  • Исправлена проблема с блокировкой при повторном подключении в длительных сеансах.
  • Исправлена проблема, которая могла приводить к отсутствию окончательного результата для переводов, завершившихся сбоем.
  • C#: если операция async не ожидалась в основном потоке, распознаватель мог быть удален до завершения асинхронной задачи.
  • Исправлена проблема, которая приводила к сбою на VM Java.
  • Objective-C: исправлено сопоставление перечислений: вместо RecognizingIntent возвращалось RecognizedIntent.
  • JavaScript: в SpeechConfig задан выходной формат по умолчанию "Простой".
  • JavaScript: устранена несогласованность между свойствами объекта конфигурации в JavaScript и других языках.

примеры

  • Обновлено и исправлено несколько примеров (в частности, выходные голоса для перевода).
  • Добавлены примеры для Node.js в репозиторий примеров.

Пакет SDK для службы "Речь" 1.1.0

новые функции;

  • Поддержка Android x86/x64.
  • Поддержка прокси-сервера: в объекте SpeechConfig теперь можно вызвать функцию для задания сведений о прокси-сервере (имя узла, порт, имя пользователя и пароль). Эта функция пока недоступна в iOS.
  • Улучшенный код ошибки и сообщения. Если распознавание возвращает ошибку, это означает, что для Error уже установлен набор Reason (в отмененное событие) или CancellationDetails (в результат распознавания). Отмененное событие теперь содержит два дополнительных элемента: ErrorCode и ErrorDetails. Если сервер вернул дополнительные сведения об ошибке вместе с сообщаемой ошибкой, то она будет доступна в новых элементах.

Улучшения

  • В конфигурацию распознавателя добавлена дополнительная проверка и сообщение об ошибке.
  • Улучшена обработка долгого периода тишины в середине звукового файла.
  • Пакет NuGet: не допускает компиляцию с конфигурацией AnyCPU для проектов .NET Framework.

Исправления ошибок

  • Исправлено несколько исключений из распознавателей. В дополнение к этому исключения перехватываются и преобразуются в событие Canceled.
  • Утечка памяти в управлении свойствами устранена.
  • Ошибка, в которой входной файл аудио мог стать причиной аварийного завершения распознавателя, исправлена.
  • Исправлена ошибка, где события могут быть получены после остановки сеанса.
  • Исправлены некоторые состояния гонки в потоке.
  • Проблема совместимости, которая может привести к аварийному завершению iOS, исправлена.
  • Улучшение стабильности для поддержки микрофона на Android.
  • Исправлена ошибка, где распознаватель в JavaScript игнорирует распознавание языка.
  • Исправлена ошибка, которая блокирует задание настройки EndpointId (в некоторых ситуациях) в JavaScript.
  • Изменен порядок параметров в AddIntent в JavaScript, добавлена отсутствующая сигнатура AddIntent JavaScript.

примеры

  • Добавлены примеры C++ и C# для извлечения и отправки потоковой передачи по запросу из репозитория примеров.

Пакет SDK для службы "Речь" 1.0.1

Повышение надежности и устранение ошибок:

  • Исправлена потенциальная неустранимая ошибка из-за состояния гонки в удаленном распознавателе
  • Исправлена потенциальная неустранимая ошибка в случае наличия незаданных свойств.
  • Добавлены дополнительные ошибки и проверки параметров.
  • Objective-C: исправлена потенциальная неустранимая ошибка, возникающая из-за переопределения имени в NSString.
  • Objective-C: скорректирована видимость API
  • JavaScript: исправления относительно событий и их полезных данных.
  • Улучшена документация.

В нашем репозитории примеров добавлен новый пример для JavaScript.

Пакет SDK службы "Речь ИИ Azure" 1.0.0: выпуск 2018-сентябрь

новые функции;

Критические изменения

  • В этом выпуске вводится ряд критических изменений. Дополнительные сведения см. на этой странице.

Пакет SDK службы "Речь ИИ Azure" 0.6.0: выпуск за август 2018 г.

новые функции;

  • Теперь приложения UWP, созданные с использованием пакета SDK для службы "Речь", могут пройти сертификацию WACK (комплект сертификации приложений для Windows). Ознакомьтесь с кратким руководством по UWP.
  • Поддержка платформы .NET Standard 2.0 в Linux (Ubuntu 16.04 x 64).
  • Экспериментальная функция: поддержка Java 8 в 64-разрядной версии Windows и Linux (Ubuntu 16.04 x 64). Ознакомьтесь с кратким руководством по среде выполнения Java.

Функциональное изменение

  • Предоставление дополнительных сведений об ошибках подключения.

Критические изменения

  • В Java (Android) функция SpeechFactory.configureNativePlatformBindingWithDefaultCertificate больше не требует параметр пути. Теперь путь автоматически определяется на всех поддерживаемых платформах.
  • Функция доступа get для свойства EndpointUrl в Java и C# была удалена.

Исправления ошибок

  • Теперь в Java реализован результат аудиосинтеза на распознавателе перевода.
  • Исправлена ошибка, которая могла привести к появлению неактивных потоков и увеличению числа открытых и неиспользуемых сокетов.
  • Исправлена проблема, при которой длительное распознавание могло завершиться в середине передачи.
  • Исправлено состояние гонки при завершении работы распознавателя.

Пакет SDK службы "Речь ИИ Azure" 0.5.0: выпуск 2018-июль

новые функции;

  • Поддержка платформы Android (API 23: Android 6.0 Marshmallow или более поздней версии). Ознакомьтесь с кратким руководством для Android.
  • Поддержка платформы .NET Standard 2.0 в Windows. Ознакомьтесь с кратким руководством для .NET Core.
  • Экспериментальная функция: поддержка UWP в Windows (версия 1709 или более поздняя версия).
    • Ознакомьтесь с кратким руководством по UWP.
    • Обратите внимание, что приложения UWP, созданные с помощью пакета SDK для службы "Речь", еще не передают комплект сертификации приложений Windows (WACK).
  • Поддержка длительного распознавания с автоматическим переподключением.

Функциональные изменения

  • StartContinuousRecognitionAsync() поддерживает длительное распознавание.
  • Результат распознавания содержит дополнительные поля. Это смещение от начала звука и длительность (в тактах) распознанного текста, а также дополнительные значения, представляющие состояние распознавания, например InitialSilenceTimeout и InitialBabbleTimeout.
  • Поддержка AuthorizationToken для создания экземпляров фабрики.

Критические изменения

  • События распознавания: тип события NoMatch объединен с событием Error.
  • SpeechOutputFormat в C# переименован в OutputFormat, чтобы сохранить согласованность с C++.
  • Возвращаемый тип некоторых методов AudioInputStream интерфейса немного изменился:
    • В Java метод read теперь возвращает long вместо int.
    • В C# метод Read теперь возвращает uint вместо int.
    • В C++ методы Read и GetFormat теперь возвращают size_t вместо int.
  • C++: экземпляры входных аудиопотоков теперь могут передаваться только как shared_ptr.

Исправления ошибок

  • Исправлены неправильные возвращаемые значения в результате после истечения времени ожидания RecognizeAsync().
  • Удалена зависимость от библиотек Media Foundation в Windows. Теперь пакет SDK использует интерфейсы API Core Audio.
  • Исправление документации: добавлена страница с описанием поддерживаемых регионов.

Известная проблема

  • Пакет SDK для службы "Речь" не передает результаты синтеза речи для перевода. Эта проблема будет устранена в следующем выпуске.

Пакет SDK службы "Речь ИИ Azure" 0.4.0: выпуск за июнь 2018 г.

Функциональные изменения

  • AudioInputStream

    Распознаватель теперь может использовать поток в качестве источника звука. Дополнительные сведения см. в соответствующем практическом руководстве.

  • Подробный формат выходных данных

    При создании SpeechRecognizer можно запросить формат выходных данных Detailed или Simple. DetailedSpeechRecognitionResult содержит оценку достоверности, распознанный текст, необработанную лексическую форму, нормализованную форму и нормализованную форму с маской ненормативной лексики.

Критическое изменение

  • В C# SpeechRecognitionResult.RecognizedText заменено на SpeechRecognitionResult.Text.

Исправления ошибок

  • Устранена проблема с возможным обратным вызовом в слое USP во время завершения работы.
  • Если распознаватель использует входной аудиофайл, он удерживает дескриптор файла дольше, чем необходимо.
  • Устранены различные взаимоблокировки между генератором сообщений и распознавателем.
  • Срабатывает результат NoMatch по истечении времени ожидания ответа от службы.
  • Библиотеки Media Foundation в Windows загружаются с задержкой. Эта библиотека требуется только для ввода с микрофона.
  • Скорость передачи для аудиоданных ограничена примерно в два раза относительно исходной скорости.
  • В Windows сборки .NET для C# теперь имеют строгие имена.
  • Исправление документации: Region — обязательная информация для создания распознавателя.

Добавлены дополнительные примеры, которые постоянно обновляются. Актуальный набор примеров доступен в репозитории GitHub с примерами пакета SDK для службы "Речь".

Пакет SDK службы "Речь ИИ Azure" 0.2.12733: выпуск за май 2018 г.

Этот выпуск является первым общедоступным предварительным выпуском пакета SDK службы "Речь" для Azure AI.