Wat is spraak-naar-tekst?

In dit overzicht krijgt u informatie over de voordelen en mogelijkheden van de spraak-naar-tekstfunctie van de Speech-service, die deel uitmaakt van Azure AI-services. Spraak-naar-tekst kan worden gebruikt voor realtime transcriptie of batchtranscriptie van audiostreams in tekst.

Notitie

Als u prijzen van realtime naar batchtranscriptie wilt vergelijken, raadpleegt u de prijzen van de Speech-service.

Zie Taal- en spraakondersteuning voor een volledige lijst met beschikbare spraak-naar-teksttalen.

Realtime spraak naar tekst

Met realtime spraak naar tekst wordt de audio getranscribeerd als spraak wordt herkend vanuit een microfoon of bestand. Gebruik realtime spraak naar tekst voor toepassingen die audio in realtime moeten transcriberen, zoals:

  • Transcripties, onderschrift s of ondertitels voor livevergaderingen
  • Diarisatie
  • Uitspraakbeoordeling
  • Contactcentermedewerkers helpen
  • Dicteren
  • Spraakagenten

Realtime spraak naar tekst is beschikbaar via de Speech SDK en de Speech CLI.

Batchtranscriptie

Batchtranscriptie wordt gebruikt om een grote hoeveelheid audio in opslag te transcriberen. U kunt met een SAS-URI (Shared Access Signature) naar audiobestanden verwijzen en de transcriptieresultaten asynchroon ontvangen. Batchtranscriptie gebruiken voor toepassingen die audio bulksgewijs moeten transcriberen, zoals:

  • Transcripties, onderschrift s of ondertitels voor vooraf opgenomen audio
  • Analyse na gesprek van het contactcentrum
  • Diarisatie

Batchtranscriptie is beschikbaar via:

Aangepaste spraak

Met aangepaste spraak kunt u de nauwkeurigheid van spraakherkenning voor uw toepassingen en producten evalueren en verbeteren. Een aangepast spraakmodel kan worden gebruikt voor realtime spraak naar tekst, spraakomzetting en batchtranscriptie.

Tip

Een gehost implementatie-eindpunt is niet vereist voor het gebruik van aangepaste spraak met de Batch-transcriptie-API. U kunt resources besparen als het aangepaste spraakmodel alleen wordt gebruikt voor batchtranscriptie. Zie prijzen voor de Speech-service voor meer informatie.

Spraakherkenning maakt gebruik van een Universal Language Model als basismodel dat is getraind met gegevens in eigendom van Microsoft en weerspiegelt veelgebruikte gesproken taal. Het basismodel is vooraf getraind met dialecten en fonetiek die verschillende gemeenschappelijke domeinen vertegenwoordigen. Wanneer u een aanvraag voor spraakherkenning maakt, wordt het meest recente basismodel voor elke ondersteunde taal standaard gebruikt. Het basismodel werkt goed in de meeste scenario's voor spraakherkenning.

Een aangepast model kan worden gebruikt om het basismodel te verbeteren om de herkenning van domeinspecifieke woordenlijsten die specifiek zijn voor de toepassing te verbeteren door tekstgegevens op te geven om het model te trainen. Het kan ook worden gebruikt om herkenning te verbeteren op basis van de specifieke audiovoorwaarden van de toepassing door audiogegevens te voorzien van referentietranscripties. Zie de REST API voor aangepaste spraak en spraak naar tekst voor meer informatie.

Aanpassingsopties variëren per taal of landinstelling. Zie Taal- en spraakondersteuning voor de Speech-service om ondersteuning te controleren.

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.

Volgende stappen