Что такое перевод речи?

В этой статье вы узнаете о преимуществах и возможностях перевода с помощью службы "Речь ИИ Azure". Служба "Речь" поддерживает речь в режиме реального времени, многоязычную речь для преобразования речи и речи в аудиопотоки.

Используя пакет SDK или интерфейс командной строки для службы "Речь", вы можете предоставить своим приложениям, средствам и устройствам доступ к исходным транскрибированиям и выходным данным перевода для предоставленных аудиоданных. Промежуточные результаты транскрибирования и перевода предоставляются, как только происходит обнаружение речи, а окончательные результаты могут быть преобразованы в синтезированную речь.

Список языков, поддерживаемых для перевода речи, см. в статье Поддержка языков и голоса.

Совет

Перейдите в Speech Studio , чтобы быстро протестировать и перевести речь на другие языки с низкой задержкой.

Основные возможности

Основные функции перевода речи включают:

Перевод преобразованной речи в текст

Стандартная функция, предлагаемая службой "Речь", — это возможность принимать входной аудиопоток в указанном исходном языке и выводить его в виде текста в указанном целевом языке.

Преобразование речи в речь

В дополнение к приведенной выше функции служба "Речь" также предлагает возможность считывать вслух переведенный текст с помощью нашей большой базы данных предварительно обученных голосов, что позволяет получить естественные выходные данные входной речи.

Многоязычный перевод речи (предварительная версия)

Многоязычный перевод речи реализует новый уровень технологии перевода речи, которая разблокирует различные возможности, включая отсутствие указанного языка ввода, обработку языковых коммутаторов в рамках одного сеанса и поддержку потоковых переводов на английский язык. Эти функции обеспечивают новый уровень возможностей перевода речи, которые могут быть реализованы в ваших продуктах.

  • Неопределенный язык ввода. Многоязычный перевод речи может получать звук в широком диапазоне языков, и нет необходимости указывать ожидаемый язык ввода.
  • Переключение языков. Многоязычный перевод речи позволяет говорить на нескольких языках во время одного сеанса и переводить их на один и тот же целевой язык. При изменении языка ввода или других действиях сеанса не требуется перезапустить.
  • Транскрипции. Служба выводит транскрибирование на указанном целевом языке. Транскрибирование исходного языка пока недоступно.

Ниже приведены некоторые варианты использования для многоязычного перевода речи:

  • Интерпретатор путешествий. При поездке за границу многоязычный перевод речи предоставляет возможность создавать решение, позволяющее клиентам переводить любой входной звук на локальный язык и с этого языка. Это позволяет им взаимодействовать с местными жителями и лучше понять их окружение.
  • Бизнес-собрание. В собрании с людьми, которые говорят на разных языках, многоязычный перевод речи позволяет членам собрания взаимодействовать друг с другом естественно, как если бы не было языковых барьеров.

Для многоязычного перевода речи, это языки, которые служба "Речь" может автоматически обнаруживать и переключаться между входными данными: арабский (ar), Basque (eu), боснийский (bs), болгарский (bg), китайский упрощенный (zh), китайский традиционный (zhh), чешский (cs), датский (da), голландский (nl), английский (en), финский (et), финский (fi), французский (fr), галисиан (gl), немецкий (de), греческий (el), хинди (hi), Венгерский (hu), индонезийский (id), итальянский (it), японский (ja), корейский (ko), латышский (lv), литовец (lt), македонский (mk), норвежский (nb), польский (pl), португальский (pt), румынский (pt), румынский (ru), сербский (sr), словацкий (sk), словенец (sl), испанский (es), шведский (sv), тайский (th), турецкий (tr), украинский (великобритания), вьетнамский (vi) и валлийский (cy).

Список поддерживаемых языков выходных данных (целевых) см. в документации по переводу на текстовый язык в документации по поддержке языка и голосовой поддержки.

Дополнительные сведения о многоязычном переводе речи см. в руководстве и примерах перевода речи на GitHub.

Перевод нескольких целевых языков

В сценариях, где требуется вывод на нескольких языках, служба "Речь" напрямую обеспечивает возможность перевода языка ввода на два целевых языка. Это позволяет им получать два выходных данных и совместно использовать эти переводы для широкой аудитории с одним вызовом API. Если требуются дополнительные языки вывода, можно создать ресурс с несколькими службами или использовать отдельные службы перевода.

Если вам требуется перевод на более двух целевых языках, необходимо либо создать ресурс с несколькими службами, либо использовать отдельные службы перевода для дополнительных языков за пределами второй. Если вы решили вызвать службу перевода речи с ресурсом с несколькими службами, обратите внимание, что плата за перевод применяется для каждого языка за пределами второй, на основе количества символов перевода.

Чтобы вычислить примененную плату за перевод, ознакомьтесь с ценами на Azure AI Переводчик.

Цены на перевод на несколько целевых языков

Важно отметить, что служба перевода речи работает в режиме реального времени, а промежуточные результаты речи переводятся для создания промежуточных результатов перевода. Таким образом, фактический объем перевода превышает маркеры входного звука. Плата за преобразование речи в текст и перевод текста для каждого целевого языка взимается.

Например, предположим, что требуется перевод текста из одночасового аудиофайла на три целевых языка. Если начальная речь в транскрибировании текста содержит 10 000 символов, может взиматься плата за $2,80.

Предупреждение

Цены в этом примере предназначены только для иллюстрационных целей. Ознакомьтесь с ценами на службы "Речь ИИ Azure" и Переводчик ценами на самые актуальные сведения о ценах.

В предыдущем примере цена на $ 2,80 была рассчитана путем объединения речи на транскрибирование текста и затраты на перевод текста. Вот как было выполнено вычисление:

  • Цена на перевод речи составляет $2,50 в час, охватывая до 2 целевых языков. Цена используется в качестве примера вычисления затрат. Ознакомьтесь со стандартомперевода речи с оплатой по мере перехода>>в таблицу цен на распознавание речи ИИ Azure, чтобы получить самые актуальные сведения о ценах.
  • Стоимость перевода третьего языка составляет 30 центов в этом примере. Цена на перевод составляет $10 за миллион символов. Так как звуковой файл содержит 10 000 символов, стоимость перевода составляет $ 10 * 10 000 / 1000 000 * 3 = $ 0,3. Число "3" в этом уравнении представляет весовый коэффициент промежуточного трафика, который может отличаться в зависимости от языков, участвующих в этом уравнении. Цена используется в качестве примера вычисления затрат. Ознакомьтесь с переводомтекста перевода>с оплатой по мере использования>стандарта "Стандартный" в таблице цен azure AI Переводчик для получения наиболее актуальных сведений о ценах.

Начать

В качестве первого шага попробуйте краткое руководство по переводу речи. Служба перевода речи доступна через пакет SDK "Речь", и Интерфейс командной строки "Речь".

Вы найдете речь пакета SDK для службы "Речь" в примерах текста и перевода на сайте GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание и перевод, а также работа с пользовательскими моделями.

Следующие шаги