Geringere Wartezeit bei der Sprachsynthese mit dem Speech SDK

Artikel
01/21/2024

Die Synthesewartezeit ist für Ihre Anwendungen von entscheidender Bedeutung. In diesem Artikel werden die bewährten Methoden vorgestellt, um die Wartezeit zu verringern und Ihren Endbenutzern die beste Leistung zu bieten.

Normalerweise messen wir die Wartezeit wie folgt anhand von first byte latency und finish latency:

Wartezeit	BESCHREIBUNG	SpeechSynthesisResult-Eigenschaftsschlüssel
first byte latency (Wartezeit für das erste Byte)	Gibt die Zeitverzögerung zwischen dem Start des Synthesetasks und dem Empfang des ersten Audiodatenblocks an.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
finish latency (Abschlusswartezeit)	Gibt die Zeitverzögerung zwischen dem Start des Synthesetasks und dem Empfang der gesamten synthetisierten Audiodaten an.	SpeechServiceResponse_SynthesisFinishLatencyMs

Das Speech SDK fügt die Wartezeitdauern in die Properties-Auflistung von SpeechSynthesisResult ein. Der folgende Beispielcode zeigt diese Werte.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Wartezeit	BESCHREIBUNG	SpeechSynthesisResult-Eigenschaftsschlüssel
`first byte latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang des ersten Audioblocks an.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang der gesamten synthetisierten Audiodaten an.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Das Speech SDK hat die Wartezeiten gemessen und sie in der Eigenschaftensammlung von SpeechSynthesisResult abgelegt. Sie erhalten sie über die folgenden Codes.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Wartezeit	BESCHREIBUNG	SpeechSynthesisResult-Eigenschaftsschlüssel
`first byte latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang des ersten Audioblocks an.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang der gesamten synthetisierten Audiodaten an.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Das Speech SDK hat die Wartezeiten gemessen und sie in der Eigenschaftensammlung von SpeechSynthesisResult abgelegt. Sie erhalten sie über die folgenden Codes.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Wartezeit	BESCHREIBUNG	SpeechSynthesisResult-Eigenschaftsschlüssel
`first byte latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang des ersten Audioblocks an.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang der gesamten synthetisierten Audiodaten an.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Das Speech SDK hat die Wartezeiten gemessen und sie in der Eigenschaftensammlung von SpeechSynthesisResult abgelegt. Sie erhalten sie über die folgenden Codes.

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Wartezeit	BESCHREIBUNG	SPXSpeechSynthesisResult-Eigenschaftsschlüssel
`first byte latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang des ersten Audioblocks an.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Gibt die Zeitverzögerung zwischen dem Start der Synthese und dem Empfang der gesamten synthetisierten Audiodaten an.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

Das Speech SDK hat die Wartezeiten gemessen und sie in der Eigenschaftensammlung von SPXSpeechSynthesisResult abgelegt. Sie erhalten sie über die folgenden Codes.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Die Wartezeit für das erste Byte (first byte latency) ist in den meisten Fällen niedriger als die Abschlusswartezeit (finish latency). Die Wartezeit für das erste Byte ist unabhängig von der Textlänge, während die Abschlusswartezeit mit der Textlänge zunimmt.

Im Idealfall möchten wir die vom Benutzer erlebte Wartezeit (die Wartezeit, bevor der Benutzer den Ton hört) auf eine Netzwerkstreckenzeit plus die Wartezeit für den ersten Audioblock des Sprachsynthesediensts minimieren.

Streaming

Streaming ist entscheidend für die Verringerung der Wartezeit. Clientcode kann die Wiedergabe starten, wenn der erste Audioblock empfangen wird. In einem Dienstszenario können Sie die Audioblöcke sofort an Ihre Clients weiterleiten, anstatt auf die gesamten Audiodaten zu warten.

Sie können das PullAudioOutputStream, PushAudioOutputStream, Synthesizing-Ereignis und AudioDataStream des Speech SDK verwenden, um das Streaming zu aktivieren.