Hämta taligenkänningsresultat

Referensdokumentation | Paket (NuGet) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Offset: Förskjutningen till den ljudström som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognized händelse.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = speechRecognitionResult.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till den tillämpade matematikkursen 201 17000000 33400000
ERKÄNDA Välkommen till den tillämpade matematikkursen 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA Ok, nu ska vi 71500000 14700000
ERKÄNNA Ok, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Ok, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (NuGet) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig->RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄNDA Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK, nu ska vi 71500000 14700000
ERKÄNNA Okej, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (Go) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄNDA Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK, nu ska vi 71500000 14700000
ERKÄNNA Okej, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄNDA Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK, nu ska vi 71500000 14700000
ERKÄNNA Okej, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (npm) | Ytterligare exempel på GitHub | Biblioteks källkod

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till den tillämpade matematikkursen 201 17000000 33400000
ERKÄNDA Välkommen till den tillämpade matematikkursen 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA Ok, nu ska vi 71500000 14700000
ERKÄNNA Ok, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Ok, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (ladda ned) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Offset: Förskjutningen till den ljudström som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄNDA Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK, nu ska vi 71500000 14700000
ERKÄNNA Okej, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (ladda ned) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄNDA Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK, nu ska vi 71500000 14700000
ERKÄNNA Okej, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (PyPi) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

  • Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, från 0 (noll) tick, associerat med den första ljudbyte som bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enskilt yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speech_config.request_word_level_timestamps()

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till den tillämpade matematikkursen 201 17000000 33400000
ERKÄNDA Välkommen till den tillämpade matematikkursen 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA Ok, nu ska vi 71500000 14700000
ERKÄNNA Ok, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Ok, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Offset: Förskjutningen till den ljudström som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Du vill synkronisera undertexter med ljudspåret, oavsett om det görs i realtid eller med en förinspelning. Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Kör till exempel följande kommando för att hämta förskjutningen och varaktigheten för det identifierade talet:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

@output.each.detailed Sedan argumentet angavs innehåller utdata följande kolumnrubriker:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json I kolumnen hittar du information som innehåller förskjutning och varaktighet för Recognizing händelserna och Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Mer information finns i konfigurations- och utdataalternativen för Speech CLI-datalager.

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA Välkommen 17000000 5000000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till den tillämpade matematikkursen 201 17000000 33400000
ERKÄNDA Välkommen till den tillämpade matematikkursen 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse Text Offset (i tick) Varaktighet (i tick)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA Ok, nu ska vi 71500000 14700000
ERKÄNNA Ok, nu ska vi komma igång. 71500000 18500000
ERKÄNDA Ok, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Nästa steg