Что такое транскрибирование бесед?

Транскрибирование бесед — это решение, преобразующее речь в текст, которое обеспечивает расшифровку (в реальном времени или асинхронную) любой беседы. Эта функция, которая сейчас находится на этапе предварительной версии, сочетает в себе возможности распознавания речи, идентификации докладчика и установки авторства реплик, чтобы определять, кто, что и когда сказал в ходе беседы.

Примечание

Доступ к беседам, использующим несколько устройств, является предварительной версией функции.

Основные возможности

Следующие возможности функции транскрибирования бесед могут быть вам полезны:

  • Метки времени. У речевого фрагмента каждого говорящего есть метка времени, что позволяет без труда определять время произнесения фразы.
  • Удобные для чтения расшифровки. В расшифровки автоматически добавляется форматирование и пунктуация, чтобы текст точно соответствовал беседе.
  • Профили пользователей. Профили пользователей создаются путем сбора образцов голосов и последующей их отправки для создания подписей.
  • Идентификация говорящего. Говорящие идентифицируются с помощью профилей пользователей, и каждому из них назначается идентификатор говорящего.
  • Диаризация для нескольких говорящих. Позволяет определить, кто что сказал, путем синтеза звукового потока с помощью идентификатора каждого говорящего.
  • Транскрибирование в реальном времени. Предоставляет расшифровки, позволяющие понять, кто, что и когда произносит, во время беседы.
  • Асинхронное транскрибирование. Предоставляет более точные расшифровки благодаря использованию многоканального звукового потока.

Примечание

Несмотря на то что транскрибирование бесед не ограничивает число говорящих в помещении, оно оптимизировано для 2–10 говорящих за сеанс.

Начало работы

Чтобы приступить к работе, ознакомьтесь с кратким руководством по транскрибированию бесед в реальном времени.

Варианты использования

Чтобы принимать участие в собраниях могли все, в том числе, например, лица с нарушениями слуха, важно обеспечить транскрибирование в реальном времени. Транскрибирование бесед в режиме реального времени принимает аудиозапись собрания и определяет, кто что говорит, благодаря чему все участники собрания могут следить за расшифровкой и без задержки принимать участие в собрании.

Участники собрания могут сосредоточиться на собрании, а ведение записей оставить решению транскрибирования бесед. Участники могут активно принимать участие в собрании и быстро переходить к дальнейшим действиям с помощью расшифровки. Самостоятельно вести во время собрания записи, в которых сложно ничего не упустить, больше не нужно.

Принцип работы

На следующей схеме представлено обобщенное описание работы функции.

Diagram that shows the relationships among different pieces of the conversation transcription solution.

Ожидаемые входные данные

Функция транскрибирования бесед использует два типа входных данных:

  • Многоканальный аудиопоток. Дополнительные сведения о спецификации и проектировании см. в статье Рекомендации по микрофонной решетке.
  • Образцы голосов пользователей. Транскрибированию бесед необходимо получить профили пользователей до начала беседы, чтобы идентифицировать говорящих. Соберите аудиозаписи у всех пользователей, а затем отправьте записи в службу создания подписей для проверки звука и создания профилей пользователей.

Чтобы идентифицировать говорящих, требуются образцы голосов пользователей для голосовых подписей. Говорящие, для которых нет образцов голоса, обозначаются как неопознанные. Неопознанных говорящих можно различать, если включено свойство DifferentiateGuestSpeakers (см. следующий пример). В выходных данных расшифровки такие говорящие обозначаются как, например Гость_0 и Гость_1. Для них не указываются предварительно зарегистрированные имена выступающих.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Транскрибирование в реальном времени и асинхронное транскрибирование

В следующих разделах приводятся дополнительные сведения о режимах транскрибирования, которые можно выбрать.

В режиме реального времени

Звуковые данные обрабатываются в реальном времени, чтобы возвращать идентификатор говорящего и расшифровку. Этот режим следует выбирать, если решение транскрибирования требует предоставления участникам беседы интерактивной расшифровки текущей беседы. Например, создание приложения с целью повышения удобства собраний для глухих и лиц с нарушениями слуха — это идеальный вариант использования транскрибирования в реальном времени.

Асинхронный

Выполняется пакетная обработка звуковых данных для возврата идентификатора говорящего и расшифровки. Этот режим следует выбирать, если решение транскрибирования требует обеспечить более высокую точность без представления расшифровки в реальном времени. Например, если вы хотите создать приложение, позволяющее участникам собрания без проблем получать информацию с пропущенных собраний, используйте режим асинхронного транскрибирования для получения результатов расшифровки высокой точности.

Транскрибирование в реальном времени и асинхронное транскрибирование

Звуковые данные обрабатываются в реальном времени для возврата идентификатора говорящего и расшифровки. Кроме того, отправляется запрос на получение расшифровки высокой точности путем асинхронной обработки. Этот режим следует выбирать, если приложению требуется расшифровка в реальном времени, а также расшифровка более высокой точности для использования после беседы или собрания.

Поддержка языков

В настоящее время транскрибирование бесед поддерживает все языки преобразования речи в текст в следующих регионах: centralus, eastasia, eastus, westeurope.

Дальнейшие действия