Spraakherkenningsresultaten ophalen

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecord wordt gedaan.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door aan het einde te luisteren naar stilte. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen biedt tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de offset en duur van de spraak ophalen die wordt herkend. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Dit codefragment laat zien hoe u de offset en duur van een Recognized gebeurtenis kunt ophalen.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = speechRecognitionResult.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in tikken wanneer een spreker zegt :'Welkom bij toegepaste wiskundecursus 201'. In dit voorbeeld verandert de offset niet tijdens de Recognizing en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker doorgaat, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, laten we het nu doen 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (NuGet) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecord wordt gedaan.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door aan het einde te luisteren naar stilte. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen biedt tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de offset en duur van de spraak ophalen die wordt herkend. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig->RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in tikken wanneer een spreker zegt :'Welkom bij toegepaste wiskundecursus 201'. In dit voorbeeld verandert de offset niet tijdens de Recognizing en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker doorgaat, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, laten we het nu doen 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (Go) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecord wordt gedaan.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door aan het einde te luisteren naar stilte. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen biedt tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de offset en duur van de spraak ophalen die wordt herkend. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.RequestWordLevelTimestamps();

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in tikken wanneer een spreker zegt :'Welkom bij toegepaste wiskundecursus 201'. In dit voorbeeld verandert de offset niet tijdens de Recognizing en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker doorgaat, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, laten we het nu doen 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecord wordt gedaan.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door aan het einde te luisteren naar stilte. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen biedt tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de verschuiving en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van verschuiving en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing hele en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij de toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden verschuiving van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker dan nog steeds 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke verschuiving en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, nu gaan we 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (npm) | Aanvullende voorbeelden op GitHub | Library-broncode

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecording wordt gedaan.

De Speech-service retourneert de verschuiving en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in maatstreepjes, te beginnen met 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die moeten worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de verschuiving en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speechConfig.requestWordLevelTimestamps();

Voorbeeld van verschuiving en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing hele en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij de toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden verschuiving van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker dan nog steeds 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke verschuiving en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, nu gaan we 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecording wordt gedaan.

De Speech-service retourneert de verschuiving en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in maatstreepjes, te beginnen met 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die moeten worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de verschuiving en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van verschuiving en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing hele en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker doorgaat, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, laten we het nu doen 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (downloaden) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecord wordt gedaan.

De Speech-service retourneert de offset en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door aan het einde te luisteren naar stilte. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen biedt tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de offset en duur van de spraak ophalen die wordt herkend. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Herkende offset en duur

Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

[speechConfig requestWordLevelTimestamps];

Voorbeeld van offset en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in tikken wanneer een spreker zegt :'Welkom bij toegepaste wiskundecursus 201'. In dit voorbeeld verandert de offset niet tijdens de Recognizing en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij de toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden verschuiving van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker dan nog steeds 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke verschuiving en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, nu gaan we 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Referentiedocumentatie | Pakket (PyPi) | Aanvullende voorbeelden op GitHub

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecording wordt gedaan.

De Speech-service retourneert de verschuiving en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in maatstreepjes, te beginnen met 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die moeten worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Dit codefragment laat zien hoe u de offset en duur van een Recognizing gebeurtenis kunt ophalen.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Herkende verschuiving en duur

Zodra een uiting is herkend, kunt u de verschuiving en duur van de herkende spraak ophalen. Met de Recognized gebeurtenis kunt u ook de verschuiving en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig eigenschap instellen, zoals hier wordt weergegeven:

speech_config.request_word_level_timestamps()

Voorbeeld van verschuiving en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing hele en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij de toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden verschuiving van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker dan nog steeds 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke verschuiving en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, nu gaan we 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.

Spraaksynchronisatie

Mogelijk wilt u transcripties synchroniseren met een audiospoor, of dit nu in realtime of met een prerecording wordt gedaan.

De Speech-service retourneert de verschuiving en duur van de herkende spraak.

  • Verschuiving: De offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in maatstreepjes, te beginnen met 0 (nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde.
  • Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopde stilte.

Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die moeten worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de uiteindelijke getranscribeerde tekst zodra de verwerking van een uiting is voltooid.

Verschuiving en duur herkennen

U wilt bijschriften synchroniseren met het audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan. Met de Recognizing gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.

Voer bijvoorbeeld de volgende opdracht uit om de offset en duur van de herkende spraak op te halen:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Omdat het @output.each.detailed argument is ingesteld, bevat de uitvoer de volgende kolomkoppen:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

In de result.json kolom vindt u details met offset en duur voor de Recognizing en Recognized gebeurtenissen:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Zie de configuratie en uitvoeropties voor het Speech CLI-gegevensarchief voor meer informatie.

Voorbeeld van verschuiving en duur

In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing hele en Recognized gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing en Recognized gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.

Gebeurtenis Tekst Verschuiving (in maatstreepjes) Duur (in tikken)
HERKENNEN Welkom 17000000 5000000
HERKENNEN welkom bij 17000000 6400000
HERKENNEN welkom bij toegepaste wiskunde 17000000 13600000
HERKENNEN welkom bij toegepaste wiskunde 17000000 17200000
HERKENNEN welkom bij toegepaste wiskundecursus 17000000 23700000
HERKENNEN welkom bij toegepaste wiskundecursus 2 17000000 26700000
HERKENNEN welkom bij toegepaste wiskundecursus 201 17000000 33400000
ERKEND Welkom bij toegepaste wiskundecursus 201. 17000000 34500000

De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).

Als de luidspreker doorgaat, wordt er een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden nadat de vorige uiting is beëindigd.

Gebeurtenis Tekst Verschuiving (in tikken) Duur (in tikken)
HERKENNEN OK 71500000 3100000
HERKENNEN OK nu 71500000 10300000
HERKENNEN Oké, laten we het nu doen 71500000 14700000
HERKENNEN Laten we nu aan de slag gaan. 71500000 18500000
ERKEND Laten we nu aan de slag gaan. 71500000 20600000

De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).

Volgende stappen