Uzyskiwanie wyników rozpoznawania mowy

Dokumentacja referencyjna | Package (NuGet)Additional Samples on GitHub (Package (NuGet)Additional Samples on GitHub (Package (NuGet) | Additional Samples on GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.RequestWordLevelTimestamps();

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognized .

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = speechRecognitionResult.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC Witamy na kursie matematyki stosowanej 17000000 23700000
UZNAJĄC zapraszamy na kurs matematyczny 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Package (NuGet)Additional Samples on GitHub (Package (NuGet)Additional Samples on GitHub (Package (NuGet) | Additional Samples on GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.

Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Dzięki zdarzeniu Recognized można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig->RequestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i.Recognized Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC Ok teraz 71500000 10300000
UZNAJĄC OK, teraz przyjrzyjmy się 71500000 14700000
UZNAJĄC Ok, teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Pakiet (Go) | Dodatkowe przykłady dotyczące GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.

Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Dzięki zdarzeniu Recognized można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.RequestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i.Recognized Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC Ok teraz 71500000 10300000
UZNAJĄC OK, teraz przyjrzyjmy się 71500000 14700000
UZNAJĄC Ok, teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Dodatkowe przykłady dotyczące GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.

Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.requestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC Witamy na kursie matematyki stosowanej 17000000 23700000
UZNAJĄC zapraszamy na kurs matematyczny 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Package (npm)Additional Samples on GitHubLibrary source code(Pakiet (npm) | Dodatkowe przykłady w kodzie źródłowym GitHub | Library

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speechConfig.requestWordLevelTimestamps();

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC Witamy na kursie matematyki stosowanej 17000000 23700000
UZNAJĄC zapraszamy na kurs matematyczny 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Pakiet (pobierz) | Dodatkowe przykłady dotyczące GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

[speechConfig requestWordLevelTimestamps];

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC Witamy na kursie matematyki stosowanej 17000000 23700000
UZNAJĄC zapraszamy na kurs matematyczny 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Pakiet (pobierz) | Dodatkowe przykłady dotyczące GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

[speechConfig requestWordLevelTimestamps];

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC Witamy na kursie matematyki stosowanej 17000000 23700000
UZNAJĄC zapraszamy na kurs matematyczny 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Dokumentacja referencyjna | Pakiet (PyPi) | Dodatkowe przykłady dotyczące GitHub

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką audio, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem.

Usługa Rozpoznawanie mowy zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażonego jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwiękowym przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden znacznik reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od słuchania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki wypowiedź nie zostanie ukończona. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny transkrypcji tekst po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania na wyraz nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem rozpoznanej mowy do tej pory.

Ten fragment kodu pokazuje, jak uzyskać przesunięcie i czas trwania zdarzenia Recognizing .

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Rozpoznane przesunięcie i czas trwania

Po rozpoznaniu wypowiedzi możesz uzyskać przesunięcie i czas trwania rozpoznanej mowy. Recognized Dzięki zdarzeniu można również uzyskać przesunięcie i czas trwania na słowo. Aby zażądać przesunięcia i czasu trwania na słowo, najpierw należy ustawić odpowiednią SpeechConfig właściwość, jak pokazano tutaj:

speech_config.request_word_level_timestamps()

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Welcome to Applied Mathematics course 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i Recognized . Jednak nie polegaj na przesunięcie, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ wynik końcowy może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Witamy w zastosowaniach matematycznych 17000000 13600000
UZNAJĄC Zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC witamy w kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Całkowity czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Został rozpoznany przy przesunięciu od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli głośnik będzie nadal mówić "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwa sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC Ok teraz 71500000 10300000
UZNAJĄC OK, teraz przyjrzyjmy się 71500000 14700000
UZNAJĄC Ok, teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Ok, teraz zacznijmy. 71500000 20600000

Całkowity czas trwania drugiej wypowiedzi wynosił 2,06 sekund. Został rozpoznany przy przesunięciu od 7,15 do 9,21 sekund od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

W tym przewodniku z instrukcjami dowiesz się, jak można używać wyników rozpoznawania mowy.

Synchronizacja mowy

Możesz zsynchronizować transkrypcje ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się w czasie rzeczywistym, czy z prerecordowaniem.

Usługa mowa zwraca przesunięcie i czas trwania rozpoznanej mowy.

  • Przesunięcie: przesunięcie do rozpoznawanego strumienia audio, wyrażone jako czas trwania. Przesunięcie jest mierzone w kleszczach, począwszy od 0 (zero) znacznika skojarzonego z pierwszym bajtem dźwięku przetworzonym przez zestaw SDK. Na przykład przesunięcie rozpoczyna się po rozpoczęciu rozpoznawania, ponieważ zestaw SDK rozpoczyna przetwarzanie strumienia audio. Jeden kleszcz reprezentuje sto nanosekund lub dziesiątą milionową sekundy.
  • Czas trwania: czas trwania rozpoznawanej wypowiedzi. Czas trwania w kleszczach nie obejmuje końcowej ani wiodącej ciszy.

Koniec jednej wypowiedzi zależy od nasłuchiwania ciszy na końcu. Nie otrzymasz końcowego wyniku rozpoznawania, dopóki nie zostanie ukończona wypowiedź. Rozpoznawanie zdarzeń zapewni wyniki pośrednie, które mogą ulec zmianie podczas przetwarzania strumienia audio. Rozpoznane zdarzenia zapewnią ostateczny tekst transkrybowany po zakończeniu przetwarzania wypowiedzi.

Rozpoznawanie przesunięcia i czasu trwania

Chcesz zsynchronizować podpisy ze ścieżką dźwiękową, niezależnie od tego, czy odbywa się to w czasie rzeczywistym, czy z prerecordowaniem. Dzięki zdarzeniu Recognizing można uzyskać przesunięcie i czas trwania rozpoznawanej mowy. Przesunięcie i czas trwania każdego słowa nie są dostępne, gdy rozpoznawanie jest w toku. Każde Recognizing zdarzenie jest dostarczane z tekstowym oszacowaniem mowy rozpoznanej do tej pory.

Na przykład uruchom następujące polecenie, aby uzyskać przesunięcie i czas trwania rozpoznanej mowy:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

@output.each.detailed Ponieważ argument został ustawiony, dane wyjściowe zawierają następujące nagłówki kolumn:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

W kolumnie result.json można znaleźć szczegółowe informacje, które obejmują przesunięcie i czas trwania zdarzeń Recognizing i Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Aby uzyskać więcej informacji, zobacz opcje konfiguracji idanych wyjściowych magazynu danych interfejsu wiersza polecenia usługi Mowa.

Przykładowe przesunięcie i czas trwania

W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania w kleszczach, gdy prelegent mówi "Witamy w kursie matematyki stosowanej 201". W tym przykładzie przesunięcie nie zmienia się w obrębie Recognizing zdarzeń i.Recognized Jednak nie polegaj na przesunięć, aby zachować to samo między zdarzeniami Recognizing i Recognized , ponieważ ostateczny wynik może być inny.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC Zapraszamy 17000000 5000000
UZNAJĄC Zapraszamy! 17000000 6400000
UZNAJĄC Zapraszamy do zastosowania matematyki 17000000 13600000
UZNAJĄC zapraszamy do matematyki stosowanej 17000000 17200000
UZNAJĄC witamy w kursie matematyki stosowanej 17000000 23700000
UZNAJĄC witamy w kursie matematycznym 2 17000000 26700000
UZNAJĄC Witamy na kursie matematyki stosowanej 201 17000000 33400000
ROZPOZNAWANE Witamy w kursie matematyki stosowanej 201. 17000000 34500000

Łączny czas trwania pierwszej wypowiedzi wynosił 3,45 sekundy. Rozpoznano przesunięcie od 1,7 do 5,15 sekund od początku rozpoznanego strumienia audio (00:00:01.700 --> 00:00:05.150).

Jeśli prelegent nadal mówi "Zacznijmy", nowe przesunięcie jest obliczane od początku rozpoznawanego strumienia audio do początku nowej wypowiedzi. W poniższej tabeli przedstawiono potencjalne przesunięcie i czas trwania wypowiedzi, która rozpoczęła się dwie sekundy po zakończeniu poprzedniej wypowiedzi.

Zdarzenie Tekst Przesunięcie (w kleszczach) Czas trwania (w kleszczach)
UZNAJĄC OK 71500000 3100000
UZNAJĄC OK teraz 71500000 10300000
UZNAJĄC OK, teraz 71500000 14700000
UZNAJĄC Teraz zacznijmy. 71500000 18500000
ROZPOZNAWANE Teraz zacznijmy. 71500000 20600000

Łączny czas trwania drugiej wypowiedzi wynosił 2,06 sekundy. Został rozpoznany z przesunięciem od 7,15 do 9,21 sekundy od początku rozpoznanego strumienia audio (00:00:07.150 --> 00:00:09.210).

Następne kroki