Hämta taligenkänningsresultat

Referensdokumentation | Paket (NuGet) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognized händelse.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till tillämpad matematikkurs 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Okej, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (NuGet) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig->RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (Go) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till tillämpad matematikkurs 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Okej, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (npm) | Ytterligare exempel på GitHub | Källkod för bibliotek

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till tillämpad matematikkurs 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Låt oss komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Okej, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (ladda ned) | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det tolkade talet.

Offset: Förskjutningen i ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar omfattar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras när en ljudström bearbetas. Identifierade händelser ger den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som hittills har identifierats.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också hämta förskjutningen och varaktigheten per ord. Om du vill begära förskjutning och varaktighet per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i fästingar)	Varaktighet (i fästingar)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (ladda ned) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Paket (PyPi) | Ytterligare exempel på GitHub

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speech_config.request_word_level_timestamps()

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

I den här instruktionsguiden får du lära dig mer om hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Taltjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

Offset: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i tick, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du börjar känna igen, eftersom det är då SDK börjar bearbeta ljudströmmen. En tick representerar hundra nanosekunder eller en tiomiljondel av en sekund.
Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i tick inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser tillhandahåller den slutliga transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Du vill synkronisera undertexter med ljudspåret, oavsett om det görs i realtid eller med en förinspelning. Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Kör till exempel följande kommando för att hämta förskjutningen och varaktigheten för det identifierade talet:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

@output.each.detailed Sedan argumentet angavs innehåller utdata följande kolumnrubriker:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json I kolumnen hittar du information som innehåller förskjutning och varaktighet för Recognizing händelserna och Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Mer information finns i konfigurations- och utdataalternativen för Speech CLI-datalager.

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i tick när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen under Recognizing händelserna och Recognized . Men förlita dig inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	Välkommen	17000000	5000000
ERKÄNNA	välkommen till	17000000	6400000
ERKÄNNA	välkommen till tillämpad matematik	17000000	13600000
ERKÄNNA	välkommen till tillämpad matematik	17000000	17200000
ERKÄNNA	välkommen till tillämpad matematikkurs	17000000	23700000
ERKÄNNA	välkommen till tillämpad matematikkurs 2	17000000	26700000
ERKÄNNA	välkommen till tillämpad matematikkurs 201	17000000	33400000
ERKÄNDA	Välkommen till den tillämpade matematikkursen 201.	17000000	34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av den ljudström som känns igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Händelse	Text	Offset (i tick)	Varaktighet (i tick)
ERKÄNNA	OK	71500000	3100000
ERKÄNNA	OK nu	71500000	10300000
ERKÄNNA	OK nu ska vi	71500000	14700000
ERKÄNNA	OK nu ska vi komma igång	71500000	18500000
ERKÄNDA	Ok, nu ska vi komma igång.	71500000	20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av den ljudström som känns igen (00:00:07.150 --> 00:00:09.210).

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Identifierad förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Talsynkronisering

Känna igen förskjutning och varaktighet

Exempel på förskjutning och varaktighet

Nästa steg

Ytterligare resurser