Uzyskiwanie wyników rozpoznawania mowy
Dokumentacja referencyjna | Package (NuGet)Additional Samples on GitHub (Package (NuGet)Additional Samples on GitHub (Package (NuGet) | Additional Samples on GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.RequestWordLevelTimestamps();
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = speechRecognitionResult.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | zapraszamy na kurs matematyczny 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Package (NuGet)Additional Samples on GitHub (Package (NuGet)Additional Samples on GitHub (Package (NuGet) | Additional Samples on GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.
Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Dzięki zdarzeniu Recognized
można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig->RequestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i.Recognized
Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | Ok teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz przyjrzyjmy się | 71500000 | 14700000 |
UZNAJĄC | Ok, teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Pakiet (Go) | Dodatkowe przykłady dotyczące GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.
Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Dzięki zdarzeniu Recognized
można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.RequestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i.Recognized
Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | Ok teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz przyjrzyjmy się | 71500000 | 14700000 |
UZNAJĄC | Ok, teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Dodatkowe przykłady dotyczące GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.
Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.requestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | zapraszamy na kurs matematyczny 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Package (npm)Additional Samples on GitHubLibrary source code(Pakiet (npm) | Dodatkowe przykłady w kodzie źródłowym GitHub | Library
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speechConfig.requestWordLevelTimestamps();
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | zapraszamy na kurs matematyczny 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Pakiet (pobierz) | Dodatkowe przykłady dotyczące GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
[speechConfig requestWordLevelTimestamps];
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | zapraszamy na kurs matematyczny 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Pakiet (pobierz) | Dodatkowe przykłady dotyczące GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
[speechConfig requestWordLevelTimestamps];
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | zapraszamy na kurs matematyczny 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
Dokumentacja referencyjna | Pakiet (PyPi) | Dodatkowe przykłady dotyczące GitHub
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.
Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.
Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Rozpoznane przesunięcie i czas trwania
Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized
Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig
właściwość, jak pokazano tutaj:
speech_config.request_word_level_timestamps()
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i Recognized
. Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ wynik końcowy może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Witamy w zastosowaniach matematycznych | 17000000 | 13600000 |
UZNAJĄC | Zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | witamy w kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | Ok teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz przyjrzyjmy się | 71500000 | 14700000 |
UZNAJĄC | Ok, teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Ok, teraz zacznijmy. | 71500000 | 20600000 |
Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).
W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.
Synchronizacja mowy
Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.
Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.
- Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od
0
(zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy. - Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.
Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.
Rozpoznawanie przesunięcia i czasu trwania
Chcesz zsynchronizować podpisy ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem. Dzięki zdarzeniu Recognizing
można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing
zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.
Na przykład uruchom następujące polecenie, aby uzyskać przesunięcie i czas trwania rozpoznanej mowy:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
@output.each.detailed
Ponieważ argument został ustawiony, dane wyjściowe zawierają następujące nagłówki kolumn:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
W kolumnie result.json
można znaleźć szczegółowe informacje, które obejmują przesunięcie i czas trwania zdarzeń Recognizing
i Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Aby uzyskać więcej informacji, zobacz opcje konfiguracji idanych wyjściowych magazynu danych interfejsu wiersza polecenia usługi Mowa.
Przykładowe przesunięcie i czas trwania
W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing
zdarzeń i.Recognized
Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing
i Recognized
, ponieważ ostateczny wynik może być inny.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | Zapraszamy | 17000000 | 5000000 |
UZNAJĄC | Zapraszamy! | 17000000 | 6400000 |
UZNAJĄC | Zapraszamy do zastosowania matematyki | 17000000 | 13600000 |
UZNAJĄC | zapraszamy do matematyki stosowanej | 17000000 | 17200000 |
UZNAJĄC | witamy w kursie matematyki stosowanej | 17000000 | 23700000 |
UZNAJĄC | witamy w kursie matematycznym 2 | 17000000 | 26700000 |
UZNAJĄC | Witamy na kursie matematyki stosowanej 201 | 17000000 | 33400000 |
ROZPOZNAWANE | Witamy w kursie matematyki stosowanej 201. | 17000000 | 34500000 |
Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).
Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.
Zdarzenie | Tekst | Przesunięcie (w kleszczach) | Czas trwania (w kleszczach) |
---|---|---|---|
UZNAJĄC | OK | 71500000 | 3100000 |
UZNAJĄC | OK teraz | 71500000 | 10300000 |
UZNAJĄC | OK, teraz | 71500000 | 14700000 |
UZNAJĄC | Teraz zacznijmy. | 71500000 | 18500000 |
ROZPOZNAWANE | Teraz zacznijmy. | 71500000 | 20600000 |
Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).