Уменьшение задержки синтеза речи с помощью пакета SDK службы "Речь"

Статья
01/21/2024

Задержка синтеза — критически важный фактор в любом сценарии применения. В этой статье мы рассмотрим рекомендации по снижению задержки и повышению производительности для конечных пользователей.

Обычно задержка измерятся параметрами first byte latency и finish latency следующим образом:

Задержка	Description	Ключ свойства SpeechSynthesisResult
задержка первого байта	Обозначает временную задержку между началом задачи синтеза и получением первого фрагмента звуковых данных.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
задержка завершения	Обозначает временную задержку между началом задачи синтеза и получением всего пакета синтезированных звуковых данных.	SpeechServiceResponse_SynthesisFinishLatencyMs

В пакете SDK для службы "Речь" значения длительности задержки находятся в коллекции свойств SpeechSynthesisResult. Эти значения показаны в образце кода ниже.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Задержка	Description	Ключ свойства SpeechSynthesisResult
`first byte latency`	Обозначает временную задержку между началом задачи синтеза и получением первого фрагмента звуковых данных.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Обозначает временную задержку между началом задачи синтеза и получением всего пакета синтезированных звуковых данных.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Пакет SDK службы "Речь" измеряет задержки и помещает их в контейнер свойств SpeechSynthesisResult. В коде ниже показано, как их получить.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Задержка	Description	Ключ свойства SpeechSynthesisResult
`first byte latency`	Обозначает временную задержку между началом задачи синтеза и получением первого фрагмента звуковых данных.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Обозначает временную задержку между началом задачи синтеза и получением всего пакета синтезированных звуковых данных.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Задержка	Description	Ключ свойства SpeechSynthesisResult
`first byte latency`	Обозначает временную задержку между началом задачи синтеза и получением первого фрагмента звуковых данных.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Обозначает временную задержку между началом задачи синтеза и получением всего пакета синтезированных звуковых данных.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Задержка	Description	Ключ свойства SPXSpeechSynthesisResult
`first byte latency`	Обозначает временную задержку между началом задачи синтеза и получением первого фрагмента звуковых данных.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Обозначает временную задержку между началом задачи синтеза и получением всего пакета синтезированных звуковых данных.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

Пакет SDK службы "Речь" измеряет задержки и помещает их в контейнер свойств SPXSpeechSynthesisResult. В коде ниже показано, как их получить.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Первая задержка байтов ниже, чем задержка завершения в большинстве случаев. Задержка первого байта не зависит от длины текста, а задержка завершения растет по мере увеличения этой длины.

В идеальном случае требуется минимизировать задержку для пользователя (время перед тем, как пользователь услышит звук) до времени однократного прохождения сетевого маршрута плюс задержка первого звукового фрагмента от службы синтеза речи.

Потоковая передача

Потоковая передача — важнейший фактор снижения задержки. Клиентский код может начать воспроизведение при получении первого звукового фрагмента. В сценарии обслуживания вы можете сразу пересылать клиентам звуковые фрагменты, не дожидаясь формирования всего звукового пакета.

Для реализации потоковой передачи можно использовать PullAudioOutputStream, PushAudioOutputStream, Synthesizing событие и AudioDataStream пакета SDK службы "Речь".