Vad är samtalstranskriskription (förhandsversion)?

Samtalstranskriskription är en lösning för tal till text som kombinerar taligenkänning, talaridentifiering och meningsattribution till varje talare (även kallat diarisering) för att tillhandahålla realtids- och/eller asynkron transkription av konversationer. Samtalstranskriskription särskiljer talare i en konversation för att avgöra vem som sa vad och när, och gör det enkelt för utvecklare att lägga till tal till text i sina program som utför diarisering med flera talare.

Huvudfunktioner

  • Tidsstämplar – varje talaryttrande har en tidsstämpel så att du enkelt kan hitta när en fras har sagts.
  • Läsbara avskrifter – avskrifter har formatering och skiljetecken tillagt automatiskt för att säkerställa att texten matchar det som sägs.
  • Användarprofiler – användarprofiler genereras genom att samla in exempel på användarröster och skicka dem till signaturgenerering.
  • Talaridentifiering – talare identifieras med hjälp av användarprofiler och en talaridentifierare tilldelas till var och en.
  • Diarisering av flera talare – avgör vem som sa vad genom att synkronisera ljudströmmen med varje talaridentifierare.
  • Transkription i realtid – ger live-avskrifter av vem som säger vad och när medan konversationen pågår.
  • asynkron transkription – ge avskrifter med högre noggrannhet genom att använda en ljudström med flera kanaler.

Anteckning

Även om samtalstranskriskription inte begränsar antalet talare i rummet, är den optimerad för 2–10 talare per session.

Kom igång

Se snabbstarten för transkription av konversationer i realtid för att komma igång.

Användningsfall

Det är viktigt att ha transkription i realtid för att göra möten inkluderande för alla, t.ex. deltagare som är har nedsatt hörsel och hörsel. Samtalstranskriskription i realtidsläge tar mötesljud och avgör vem som säger vad, vilket gör att alla mötesdeltagare kan följa avskriften och delta i mötet utan fördröjning.

Förbättrad effektivitet

Mötesdeltagarna kan fokusera på mötet och lämna anteckningen till Samtalstranskriskription. Deltagarna kan aktivt delta i mötet och snabbt följa upp nästa steg med hjälp av avskriften i stället för att anteckna och eventuellt sakna något under mötet.

Så här fungerar det

Det här är en översikt på hög nivå över hur samtalstranskriskription fungerar.

Diagram över import av samtalstranskriskription

Förväntade indata

Anteckning

Röstexempel för användare är valfria. Utan dessa indata visar transkriptionen olika talare, men visas som "Speaker1", "Speaker2" osv. i stället för att känna igen som förregistrerade specifika talarnamn.

Realtid eller asynkron

Samtalstranskriskription erbjuder tre transkriptionslägen:

Realtid

Ljuddata bearbetas live för att returnera talaridentifierare + avskrift. Välj det här läget om kravet på transkriptionlösningen är att ge konversationsdeltagarna en live-avskriftsvy över deras pågående konversation. Att till exempel skapa ett program för att göra möten mer tillgängliga för deltagare med nedsatt hörsel och hörselnedsättning är ett perfekt användningsfall för transkription i realtid.

Asynkrona

Ljuddata bearbetas batch för att returnera talaridentifierare och avskrift. Välj det här läget om ditt transkriptionslösningskrav är att tillhandahålla högre noggrannhet utan liveavskriftsvy. Om du till exempel vill skapa ett program som gör att mötesdeltagarna enkelt kan komma ikapp vid missade möten kan du använda det asynkrona transkriptionsläget för att få transkriptionsresultat med hög precision.

Realtid plus asynkron

Ljuddata bearbetas live för att returnera talaridentifierare + avskrift, och dessutom skapas en begäran för att även få en avskrift med hög noggrannhet via asynkron bearbetning. Välj det här läget om programmet har behov av transkription i realtid, men även kräver en avskrift med högre noggrannhet för användning efter konversationen eller mötet.

Stöd för språk

För närvarande stöder samtalstranskriskription alla tal-till-text-språk i följande regioner:  centralus , , , eastasia eastus westeurope . Om du behöver ytterligare stöd för språk kan du kontakta Conversation Transcription Feature Crew.

Nästa steg