Menor latência de síntese de fala usando o SDK de Fala

Artigo
01/21/2024

A latência de síntese é crítica para seus aplicativos. Neste artigo, apresentaremos as melhores práticas para reduzir a latência e trazer o melhor desempenho para os usuários finais.

Normalmente, medimos a latência por first byte latency e finish latency, da seguinte forma:

Latency	Descrição	Chave de propriedade SpeechSynthesisResult
latência de primeiro byte	Indica o atraso de tempo entre o início da tarefa de síntese e o recebimento da primeira parte dos dados de áudio.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
latência de conclusão	Indica o atraso de tempo entre o início da tarefa de síntese e o recebimento de todos os dados de áudio sintetizados.	SpeechServiceResponse_SynthesisFinishLatencyMs

O SDK de Fala coloca as durações de latência na coleção Propriedades de SpeechSynthesisResult. O código de exemplo a seguir mostra esses valores.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latency	Descrição	Chave de propriedade SpeechSynthesisResult
`first byte latency`	Indica o atraso de tempo entre o início da síntese e o momento quando a primeira parte de áudio é recebida.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o atraso de tempo entre o início da síntese e momento quando todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no pacote de propriedades de SpeechSynthesisResult. Consulte os códigos a seguir para obtê-los.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latency	Descrição	Chave de propriedade SpeechSynthesisResult
`first byte latency`	Indica o atraso de tempo entre o início da síntese e o momento quando a primeira parte de áudio é recebida.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o atraso de tempo entre o início da síntese e momento quando todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no pacote de propriedades de SpeechSynthesisResult. Consulte os códigos a seguir para obtê-los.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latency	Descrição	Chave de propriedade SpeechSynthesisResult
`first byte latency`	Indica o atraso de tempo entre o início da síntese e o momento quando a primeira parte de áudio é recebida.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o atraso de tempo entre o início da síntese e momento quando todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no pacote de propriedades de SpeechSynthesisResult. Consulte os códigos a seguir para obtê-los.

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latency	Descrição	Chave de propriedade SPXSpeechSynthesisResult
`first byte latency`	Indica o atraso de tempo entre o início da síntese e o momento quando a primeira parte de áudio é recebida.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Indica o atraso de tempo entre o início da síntese e momento quando todo o áudio sintetizado é recebido.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no pacote de propriedades de SPXSpeechSynthesisResult. Consulte os códigos a seguir para obtê-los.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

A latência do primeiro byte é menor do que a latência de conclusão na maioria dos casos. A latência do primeiro byte é independente do comprimento do texto, enquanto a latência de conclusão aumenta com o comprimento do texto.

O ideal é minimizar a latência de experiência do usuário (a latência antes que o usuário ouça o som) para um tempo de viagem de rota de rede mais a latência da primeira parte do áudio do serviço de síntese de fala.

Streaming

O streaming é essencial para reduzir a latência. O código do cliente pode iniciar a reprodução quando a primeira parte do áudio é recebida. Em um cenário de serviço, você pode encaminhar imediatamente as partes de áudio para seus clientes em vez de aguardar o áudio todo.

Você pode usar PullAudioOutputStream, PushAudioOutputStream, evento Synthesizing e AudioDataStream do SDK de Fala para habilitar o streaming.