Spraakherkenning en synthese begrijpen

Voltooid

Spraakherkenning neemt het gesproken woord en converteert het naar gegevens die kunnen worden verwerkt, vaak door het in tekst te transcriberen. De gesproken tekst kan zijn opgenomen in een audiobestand of afkomstig zijn van een microfoon (live-audio). De spraakpatronen in de audio worden geanalyseerd om herkenbare patronen vast te stellen die worden gekoppeld aan woorden. Hiervoor gebruikt de software doorgaans meerdere modellen, waaronder:

  • Een akoestisch model waarmee het audiosignaal wordt omgezet in fonemen (representaties van specifieke geluiden).
  • Een taalmodel waarmee fonemen aan woorden worden gekoppeld, meestal met een statistische algoritme waarmee de meest waarschijnlijke reeks woorden wordt voorspeld op basis van de fonemen.

De herkende woorden worden meestal geconverteerd naar tekst, die u voor verschillende doeleinden kunt gebruiken, zoals:

  • Ondertiteling voor opgenomen of live video's
  • Een transcript van een telefoongesprek of vergadering
  • Geautomatiseerde notities dicteren
  • Bepalen van beoogde gebruikersinvoer voor verdere verwerking

Spraaksynthese houdt zich bezig met stemgegevens, meestal door tekst te converteren naar spraak. Voor een oplossing voor spraaksynthese is doorgaans de volgende informatie vereist:

  • De te spreken tekst
  • De stem die moet worden gebruikt om de spraak uit te zang

Bij spraaksynthese zal het systeem de tekst doorgaans tokeniseren in afzonderlijke woorden en fonetische klanken aan elk woord toewijzen. De fonetische transcriptie wordt vervolgens opgebroken in prosodische eenheden (zoals frasen, bijzinnen of zinnen) om fonemen te maken die worden geconverteerd naar audio. Deze telefoontjes worden vervolgens gesynthetiseerd als audio en kunnen een bepaalde stem, spreeksnelheid, toonhoogte en volume worden toegewezen.

U kunt de uitvoer van spraaksynthese gebruiken voor diverse doeleinden, zoals:

  • Gesproken antwoorden genereren op gebruikersinvoer
  • Spraakmenu's maken voor telefoonsystemen
  • E-mail of sms-berichten hardop voorlezen in praktijkvrije scenario's
  • Omroepaankondigingen op openbare locaties, zoals treinstations of luchthavens