Квоты и ограничения службы "Речь"

Эта статья содержит краткий справочник по квотам и ограничениям службы "Речь" в Azure Cognitive Services, а также их подробное описание. Эти сведения верны для всех ценовых категорий службы. Она также содержит некоторые рекомендации по предотвращению регулирования количества запросов.

Справочник по квотам и ограничениям

В следующих разделах приводится краткое руководство по квотам и ограничениям, которые относятся к службе "Речь".

Квоты и ограничения преобразования речи в текст для каждого ресурса

В следующих таблицах параметры, у которых нет строки Изменяемый, являются некорректируемыми для всех ценовых категорий.

Транскрибирование в Интернете

Транскрибирование в Интернете можно использовать вместе с пакетом SDK службы "Речь" или REST API преобразования речи в текст для коротких аудио.

Quota Бесплатный (F0) 1 Standard (S0)
Ограничение на количество одновременных запросов — конечная точка базовой модели 1 100 (значение по умолчанию)
Регулируется Нет2 Да2
Ограничение на количество одновременных запросов — пользовательская конечная точка 1 100 (значение по умолчанию)
Регулируется Нет2 Да2

Пакетное транскрибирование

Quota Бесплатный (F0) 1 Standard (S0)
Ограничение REST API преобразования речи в текст версии 2.0 и версии 3.0 Недоступно для F0 300 запросов в минуту
Максимальный размер входного аудиофайла Н/Д 1 ГБ
Максимальный размер входного BLOB-объекта (например, может содержать более одного файла в ZIP-архиве). Обратите внимание на предельный размер файла в предыдущей строке. Н/Д 2,5 ГБ
Максимальный размер контейнера больших двоичных объектов Н/Д 5 ГБ
Максимальное количество больших двоичных объектов в контейнере Н/Д 10000
Максимальное количество файлов в одном запросе на транскрибирование (при использовании нескольких URL-адресов содержимого в качестве входных данных). Н/Д 1000

Настройка модели

Quota Бесплатный (F0) 1 Standard (S0)
Ограничение REST API 300 запросов в минуту 300 запросов в минуту
Максимальное количество наборов речевых данных 2 500
Максимальный размер файла набора акустических данных для импорта данных 2 ГБ 2 ГБ
Максимальный размер файла набора языковых данных для импорта данных 200 МБ 1,5 ГБ
Максимальный размер файла набора данных произношения для импорта данных 1 КБ 1 МБ
Максимальный размер текста при использовании параметра text в запросе API на создание модели 200 КБ 500 КБ

1 Для бесплатной ценовой категории (F0) см. также ежемесячные скидки на странице цен.
2 См. дополнительные пояснения, рекомендации и инструкции по корректировке.

Квоты и ограничения преобразования текста в речь для каждого ресурса

В следующих таблицах параметры, у которых нет строки Изменяемый, являются некорректируемыми для всех ценовых категорий.

Общие

Quota Бесплатный (F0) 3 Standard (S0)
Максимальное число транзакций за определенный период на каждый ресурс службы "Речь"
API реального времени. Предварительно созданные и пользовательские нейронные голоса. 20 транзакций за 60 секунд 200 транзакций в секунду (TPS) (значение по умолчанию).
Регулируется Нет4 Да5, до 1000 TPS
Квоты для HTTP
Максимальная длина созданной аудиозаписи для одного запроса 10 мин 10 мин
Макс. совокупное количество различных тегов <voice> и <audio> в SSML 50 50
Квоты для WebSocket
Максимальная длина созданной аудиозаписи для одного этапа 10 мин 10 мин
Макс. совокупное количество различных тегов <voice> и <audio> в SSML 50 50
Максимальный размер сообщения SSML для одного этапа 64 КБ 64 КБ

API длинных аудиоматериалов

Quota Бесплатный (F0) 3 Standard (S0)
Мин. длина текстового сообщения Недоступно 400 символов для обычного текста; 400 оплачиваемых символов для SSML
Макс. длина текстового сообщения Недоступно 10 000 абзацев
Время начала Недоступно 10 задач или 10 000 символов в накопленном виде

Что такое Пользовательский нейронный голос

Quota Бесплатный (F0) 3 Standard (S0)
Максимальное число транзакций в секунду (TPS) на каждый ресурс службы "Речь" Недоступно для F0 См. Общие сведения
Максимальное число наборов данных на каждый ресурс службы "Речь" Недоступно 500
Максимальное число одновременно отправляемых наборов данных на каждый ресурс службы "Речь" Н/Д 5
Максимальный размер файла данных для импорта данных на набор данных Недоступно 2 ГБ
Отправка длинных звуковых файлов или звуковых файлов без скриптов Недоступно Да
Максимальное число одновременных операций обучения модели на каждый ресурс службы "Речь" Недоступно 3
Максимальное число пользовательских конечных точек на каждый ресурс службы "Речь" Н/Д 50
Ограничение на количество одновременных запросов для Пользовательского нейронного голоса
Значение по умолчанию Недоступно 10
Регулируется Недоступно Да5

Средство создания аудиосодержимого

Quota Бесплатный (F0) Standard (S0)
Размер файла З000 символов на один файл 20 000 символов на один файл
Экспорт в библиотеку аудио 1 одновременная задача Недоступно

3 Для бесплатной ценовой категории (F0) см. также ежемесячные скидки на странице цен.
4 См. дополнительные пояснения и рекомендации.
5 См. дополнительные пояснения, рекомендации и инструкции по корректировке.

Подробное описание, корректировка квот и рекомендации

Прежде чем запросить увеличение квоты (если есть такая возможность), убедитесь, что без этого не обойтись. Служба "Речь" использует технологии автоматического масштабирования для предоставления требуемых вычислительных ресурсов в режиме по требованию. В то же время служба "Речь" пытается снизить затраты, не сохраняя чрезмерное количество аппаратных ресурсов.

Рассмотрим пример. Предположим, что приложение получает код ответа 429, указывающий на слишком большое число запросов. Приложение получает этот ответ, даже если рабочая нагрузка находится в пределах ограничений, указанных в справочнике по квотам и ограничениям. Скорее всего, причина в том, что служба "Речь" находится в процессе масштабирования для удовлетворения вашей потребности и еще не достигла требуемого масштаба. Поэтому служба не может моментально предоставить достаточно ресурсов для обслуживания запроса. В большинстве случаев это состояние регулирования является временным.

Общие рекомендации по предотвращению регулирования количества запросов во время автомасштабирования

Чтобы снизить количество проблем, связанных с регулированием, рекомендуется использовать следующие методы:

  • Реализуйте в приложении логику повторных попыток.
  • Избегайте внесения резких изменений в рабочую нагрузку. Увеличивайте рабочую нагрузку постепенно. Например, допустим, что приложение использует преобразование текста в речь и текущая рабочая нагрузка — 5 транзакций в секунду (TPS). В следующую секунду вы увеличиваете нагрузку до 20 TPS (то есть в четыре раза). Служба "Речь" немедленно начинает масштабирование, чтобы подстроиться к новой нагрузке, но за одну секунду невозможно достигнуть нужного масштаба. Для некоторых запросов будет получен код ответа 429 (слишком много запросов).
  • Протестируйте различные шаблоны увеличения нагрузки. Дополнительные сведения см. в примере шаблона рабочей нагрузки.
  • Создайте дополнительные ресурсы службы "Речь" в разных регионах и распределите рабочую нагрузку между ними. (Создание нескольких ресурсов службы "Речь" в одном регионе не повлияет на производительность, так как все ресурсы будут обслуживаться одним и тем же серверным кластером).

В следующих разделах описаны конкретные случаи настройки квот.

Преобразование речи в текст: увеличение максимального количества одновременных запросов на транскрибирование в Интернете

По умолчанию для количества одновременных запросов применяются следующие ограничения: 100 на ресурс для базовой модели и 100 на пользовательскую конечную точку для пользовательской модели. Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, описанными выше в этой статье, например с рекомендациями по снижению регулирования.

Примечание

Если вы используете пользовательские модели, имейте в виду, что один ресурс службы "Речь" может быть связан со многими пользовательскими конечными точками, на которых размещается множество развернутых пользовательских моделей. Каждая пользовательская конечная точка имеет заданное по умолчанию ограничение на число одновременных запросов (100), установленное в процессе создания. В случае необходимости отрегулировать его, вам нужно отрегулировать каждую настраиваемую конечную точку отдельно. Также следует учитывать, что значение ограничения на число одновременных запросов для базовой модели ресурса не влияет на пользовательские конечные точки, связанные с этим ресурсом.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба "Речь" использует модель оплаты, согласно которой вы платите только за фактическое использование. Ограничение определяет, насколько может масштабироваться служба, прежде чем будет начато регулирование запросов.

Ограничения на число одновременных запросов для базовой и пользовательской моделей необходимо корректировать отдельно.

Существующее значение максимального числа одновременных запросов нельзя просмотреть на портале Azure, в средствах командной строки или запросах API. Чтобы проверить имеющееся значение, отправьте запрос в службу поддержки Azure.

Примечание

Контейнерам службы "Речь" не требуется увеличение максимального количества одновременных запросов, так как в этом они зависят только от ограничений ЦП оборудования, на котором размещены. Однако контейнеры службы "Речь" имеют собственные ограничения емкости, которые следует учитывать. Дополнительные сведения см. в разделе вопросов и ответов по контейнерам службы "Речь".

Подготовьте необходимые сведения

  • Для базовой модели:
    • Идентификатор ресурса службы "Речь"
    • Регион
  • Для пользовательской модели:
    • Регион
    • Идентификатор пользовательской конечной точки

Как получить сведения для базовой модели:

  1. Перейдите на портал Azure.
  2. Выберите ресурс службы "Речь", для которого требуется увеличить максимальное количество одновременных запросов.
  3. Откройте группу Управление ресурсами и выберите элемент Свойства.
  4. Скопируйте и сохраните значения следующих полей.
    • Идентификатор ресурса
    • Расположение (регион конечной точки)

Как получить сведения для пользовательской модели:

  1. Перейдите на портал Speech Studio.
  2. Войдите в систему, если это необходимо, и перейдите в раздел Пользовательское распознавание речи.
  3. Выберите свой проект и перейдите к разделу Развертывание.
  4. Выберите требуемую конечную точку.
  5. Скопируйте и сохраните значения следующих полей.
    • Регион службы (регион конечной точки)
    • Идентификатор конечной точки

Создание и отправка запроса на поддержку

Инициируйте увеличение максимального количества одновременных запросов для своего ресурса или, если необходимо, проверьте текущее ограничение путем отправки запроса на поддержку. Вот как это сделать.

  1. Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
  2. Перейдите на портал Azure.
  3. Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
  4. В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Появится новое окно с автоматически заполненными сведениями о подписке и ресурсе Azure.
  5. В разделе Сводка укажите, что вам нужно (например, "увеличить ограничение на количество одновременных запросов для преобразования речи в текст").
  6. В поле Тип проблемы выберите Проблемы с квотой или подпиской.
  7. В поле Подтип проблемы выберите один из следующих вариантов:
    • Увеличение квоты или числа одновременных запросов — для запроса на увеличение.
    • Проверка квоты или использования — для проверки существующего ограничения.
  8. По завершении перейдите в раздел Далее: решения. Продолжайте создание запроса.
  9. На вкладке Сведения в поле Описание введите следующее:
    • Примечание, что запрос относится к квоте преобразования речи в текст.
    • Вашу модель: базовая или пользовательская.
    • Сведения о ресурсах Azure, собранные ранее.
    • Другие необходимые сведения.
  10. На вкладке Проверить и создать выберите Создать.
  11. Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вскоре с вами свяжутся по поводу вашего запроса.

Пример рекомендованного шаблона рабочей нагрузки

Ниже приведен общий пример правильного подхода. Он предлагается только как шаблон, который при необходимости можно настроить для собственного использования.

Предположим, что для ресурса службы "Речь" установлено ограничение на число одновременных запросов, равное 300. Запустите рабочую нагрузку с 20 одновременными подключениями и увеличивайте ее на 20 одновременных подключений каждые 90–120 секунд. Контролируйте отклики службы и реализуйте логику отката (сокращения нагрузки) при слишком большом количестве запросов (код отклика 429). Через одну минуту снова увеличьте нагрузку. Если это не поможет, повторите попытку через две минуты. Для интервалов используется шаблон 1-2-4-4 минуты.

Как правило, настоятельно рекомендуется протестировать рабочую нагрузку и шаблоны рабочей нагрузки до перехода в рабочую среду.

Преобразование текста в речь: увеличение ограничения на число одновременных запросов

Для ценовой категории "Стандартный" это значение можно увеличить. Перед отправкой запроса убедитесь, что вы знакомы с материалами, описанными выше в этой статье, например с рекомендациями по снижению регулирования.

Увеличение предельного количества одновременных запросов не влияет на затраты напрямую. Служба "Речь" использует модель оплаты, согласно которой вы платите только за фактическое использование. Ограничение определяет, насколько может масштабироваться служба, прежде чем будет начато регулирование запросов.

Существующее значение максимального числа одновременных запросов нельзя просмотреть на портале Azure, в средствах командной строки или запросах API. Чтобы проверить имеющееся значение, отправьте запрос в службу поддержки Azure.

Примечание

Контейнерам службы "Речь" не требуется увеличение максимального количества одновременных запросов, так как в этом они зависят только от ограничений ЦП оборудования, на котором размещены.

Подготовка необходимых сведений

Чтобы создать запрос на увеличение, необходимо указать регион развертывания и идентификатор пользовательской конечной точки. Чтобы их получить, выполните следующие действия.

  1. Перейдите на портал Speech Studio.
  2. Войдите в систему, если это необходимо, и перейдите в раздел Пользовательский голос.
  3. Выберите свой проект и перейдите к разделу Развертывание.
  4. Выберите требуемую конечную точку.
  5. Скопируйте и сохраните значения следующих полей.
    • Регион службы (регион конечной точки)
    • Идентификатор конечной точки

Создание и отправка запроса на поддержку

Инициируйте увеличение максимального количества одновременных запросов для своего ресурса или, если необходимо, проверьте текущее ограничение путем отправки запроса на поддержку. Вот как это сделать.

  1. Убедитесь, что у вас есть необходимые сведения, указанные в предыдущем разделе.
  2. Перейдите на портал Azure.
  3. Выберите ресурс службы "Речь", для которого требуется увеличить (или проверить) ограничение на число одновременных запросов.
  4. В группе Поддержка и устранение неполадок выберите Новый запрос на поддержку. Появится новое окно с автоматически заполненными сведениями о подписке и ресурсе Azure.
  5. В разделе Сводка укажите, что вам нужно (например, "увеличить ограничение на количество одновременных запросов для преобразования текста в речь").
  6. В поле Тип проблемы выберите Проблемы с квотой или подпиской.
  7. В поле Подтип проблемы выберите один из следующих вариантов:
    • Увеличение квоты или числа одновременных запросов — для запроса на увеличение.
    • Проверка квоты или использования — для проверки существующего ограничения.
  8. По завершении перейдите в раздел Далее: решения. Продолжайте создание запроса.
  9. На вкладке Сведения в поле Описание введите следующее:
    • Примечание, что запрос относится к квоте преобразования текста в речь.
    • Вашу модель: базовая или пользовательская.
    • Сведения о ресурсах Azure, собранные ранее.
    • Другие необходимые сведения.
  10. На вкладке Проверить и создать выберите Создать.
  11. Запишите номер запроса на поддержку в уведомлениях на портале Azure. Вскоре с вами свяжутся по поводу вашего запроса.