Speech to Text veelgestelde vragen

Als u geen antwoorden op uw vragen kunt vinden in deze veelgestelde vragen, raadpleegt u andere ondersteuningsopties.

Algemeen

Wat is het verschil tussen een basislijnmodel en een aangepast Speech to Text model?

Een basislijnmodel is getraind met behulp van gegevens die eigendom zijn van Microsoft en is al geïmplementeerd in de cloud. U kunt een aangepast model gebruiken om een model aan te passen aan een specifieke omgeving met specifieke omgevingsruis of -taal. Voor de verdiepingen, auto's of ruis in de fabriek is een aangepast akoestisch model vereist. Onderwerpen zoals natuurkunde, fysica, radiografie, productnamen en aangepaste acroniemen vereisen een aangepast taalmodel. Als u een aangepast model traint, moet u beginnen met gerelateerde tekst om de herkenning van speciale termen en zinnen te verbeteren.

Waar moet ik beginnen als ik een basislijnmodel wil gebruiken?

Haal eerst een abonnementssleutel op. Zie de REST API's als u REST-aanroepen wilt maken naar de vooraf geïmplementeerde basislijnmodellen. Als u WebSockets wilt gebruiken, downloadt u de SDK.

Moet ik altijd een aangepast spraakmodel bouwen?

Nee. Als uw toepassing gebruikmaakt van een algemene, dagelijkse taal, hoeft u geen model aan te passen. Als uw toepassing wordt gebruikt in een omgeving met weinig of geen achtergrondruis, hoeft u geen model aan te passen.

U kunt basislijn- en aangepaste modellen implementeren in de portal en er vervolgens nauwkeurigheidstests op uitvoeren. U kunt deze functie gebruiken om de nauwkeurigheid van een basislijnmodel te meten ten opzichte van een aangepast model.

Hoe weet ik wanneer de verwerking voor mijn gegevensset of model is voltooid?

Op dit moment is de status van het model of de gegevensset in de tabel de enige manier om dit te weten. Wanneer de verwerking is voltooid, is de status Geslaagd.

Kan ik meer dan één model maken?

Er is geen limiet voor het aantal modellen dat u in uw verzameling kunt hebben.

Ik realiseer me dat ik een fout heb gemaakt. Hoe kan ik mijn gegevensimport of het maken van het model dat wordt uitgevoerd, annuleren?

Op dit moment kunt u een aanpassingsproces voor akoestische of taal niet terugdraaien. U kunt geïmporteerde gegevens en modellen verwijderen wanneer ze een terminale status hebben.

Ik krijg verschillende resultaten voor elke woordgroep met de gedetailleerde uitvoerindeling. Welke moet ik gebruiken?

Neem altijd het eerste resultaat, zelfs als een ander resultaat ('N-Best') een hogere betrouwbaarheidswaarde kan hebben. De Speech-service beschouwt het eerste resultaat als het beste. Het kan ook een lege tekenreeks zijn als er geen spraak is herkend.

De andere resultaten zijn waarschijnlijk slechter en er zijn mogelijk geen volledige hoofdletters en leestekens toegepast. Deze resultaten zijn vooral nuttig in speciale scenario's, zoals het geven van gebruikers de mogelijkheid om correcties uit een lijst te kiezen of onjuist herkende opdrachten te verwerken.

Waarom zijn er verschillende basismodellen?

U kunt kiezen uit meer dan één basismodel in de Speech-service. Elke modelnaam bevat de datum waarop het is toegevoegd. Wanneer u begint met het trainen van een aangepast model, gebruikt u het meest recente model om de beste nauwkeurigheid te krijgen. Oudere basismodellen zijn nog enige tijd beschikbaar wanneer een nieuw model beschikbaar wordt gesteld. U kunt het model blijven gebruiken waar u mee hebt gewerkt totdat het model en de levenscyclus van het eindpunt zijn gestopt. Het wordt nog steeds aanbevolen om over te schakelen naar het meest recente basismodel voor een betere nauwkeurigheid.

Kan ik mijn bestaande model bijwerken (model stacking)?

U kunt een bestaand model niet bijwerken. Als oplossing combineert u de oude gegevensset met de nieuwe gegevensset en readapt.

De oude gegevensset en de nieuwe gegevensset moeten worden gecombineerd in één .zip-bestand (voor akoestische gegevens) of in een .txt-bestand (voor taalgegevens). Wanneer de aanpassing is voltooid, moet het nieuwe, bijgewerkte model opnieuw worden geïmplementeerd om een nieuw eindpunt te verkrijgen

Wanneer er een nieuwe versie van een basismodel beschikbaar is, wordt mijn implementatie dan automatisch bijgewerkt?

Implementaties worden NIET automatisch bijgewerkt.

Als u een model hebt aangepast en geïmplementeerd, blijft die implementatie zoals het is. U kunt het geïmplementeerde model uit bedrijf nemen, lezenapt met behulp van de nieuwere versie van het basismodel en opnieuw voor een betere nauwkeurigheid.

Zowel basismodellen als aangepaste modellen worden na enige tijd in gebruik genomen (zie Levenscyclus van model en eindpunt).

Kan ik mijn model downloaden en lokaal uitvoeren?

U kunt een aangepast model lokaal uitvoeren in een Docker-container.

Kan ik mijn gegevenssets, modellen en implementaties kopiëren of verplaatsen naar een andere regio of een ander abonnement?

U kunt de REST API een aangepast model kopiëren naar een andere regio of een ander abonnement. Gegevenssets of implementaties kunnen niet worden gekopieerd. U kunt een gegevensset opnieuw importeren in een ander abonnement en daar eindpunten maken met behulp van de modelkopieen.

Worden mijn aanvragen geregistreerd?

Standaard worden aanvragen niet geregistreerd (geen audio of transcriptie). Indien nodig kunt u logboekinhoud van deze eindpuntoptie selecteren wanneer u een aangepast eindpunt maakt. U kunt audiologboeken ook per aanvraag inschakelen in de Speech SDK zonder een aangepast eindpunt te maken. In beide gevallen worden audio- en herkenningsresultaten van aanvragen opgeslagen in beveiligde opslag. Voor abonnementen die gebruikmaken van opslag van Microsoft, zijn ze 30 dagen beschikbaar.

U kunt de vastgelegde bestanden exporteren op de implementatiepagina in Speech Studio als u een aangepast eindpunt gebruikt met logboekinhoud van dit eindpunt ingeschakeld. Als audiologboekregistratie is ingeschakeld via de SDK, roept u de API aan voor toegang tot de bestanden.

Worden mijn aanvragen beperkt?

Hoe worden er kosten in rekening gebracht voor audio met twee kanalen?

Als u elk kanaal afzonderlijk indient (elk kanaal in een eigen bestand), worden er kosten in rekening gebracht voor de duur van elk bestand. Als u één bestand indient met elk kanaal dat is ge multiplexed, worden er kosten in rekening gebracht voor de duur van het ene bestand. Raadpleeg de pagina met prijzen voor Azure Cognitive Services informatie over prijzen.

Belangrijk

Neem contact op met een van de ondersteuningskanalen als u meer privacyproblemen hebt die het gebruik van de aangepaste Speech-service verbieden.

Gelijktijdigheid verhogen

Zie Quota en limieten voor Speech Services.

Gegevens importeren

Wat is de limiet voor de grootte van een gegevensset en waarom is dit de limiet?

De limiet wordt veroorzaakt door de beperking voor de grootte van een bestand voor HTTP-upload. Zie Quota en limieten voor Speech Services voor de werkelijke limiet. U kunt uw gegevens splitsen in meerdere gegevenssets en ze allemaal selecteren om het model te trainen.

Kan ik mijn tekstbestanden zipen zodat ik een groter tekstbestand kan uploaden?

Nee. Momenteel zijn alleen niet-gecomprimeerde tekstbestanden toegestaan.

Het gegevensrapport geeft aan dat er mislukte utterances zijn. Wat is het probleem?

Het uploaden van 100 procent van de utterances in een bestand is geen probleem. Als het overgrote deel van de utterances in een akoestische- of taalset (bijvoorbeeld meer dan 95 procent) is geïmporteerd, kan de gegevensset bruikbaar zijn. We raden u echter aan om te begrijpen waarom de utterances zijn mislukt en de problemen op te lossen. De meeste veelvoorkomende problemen, zoals opmaakfouten, zijn eenvoudig op te lossen.

Een akoestisch model maken

Hoeveel akoestische gegevens heb ik nodig?

We raden u aan te beginnen met 30 minuten tot één uur aan akoestische gegevens.

Welke gegevens moet ik verzamelen?

Verzamel gegevens die zich zo dicht mogelijk bij het toepassingsscenario en gebruiksscenario mogelijk maken. De gegevensverzameling moet overeenkomen met de doeltoepassing en gebruikers wat betreft apparaten, apparaten, omgevingen en typen sprekers. Over het algemeen moet u gegevens verzamelen van een zo breed mogelijk aantal sprekers.

Hoe kan ik akoestische gegevens verzamelen?

U kunt een zelfstandige toepassing voor het verzamelen van gegevens maken of gebruik maken van gebruik van gebruikssoftware voor audio-opname. U kunt ook een versie van uw toepassing maken die de audiogegevens registreert en vervolgens de gegevens gebruikt.

Moet ik aanpassingsgegevens zelf transcriberen?

Ja. U kunt deze zelf transcriberen of een professionele transcriptieservice gebruiken. Sommige gebruikers geven de voorkeur aan professionele transcribers en anderen gebruiken crowdsourcing of doen de transcripties zelf.

Hoe lang duurt het om een aangepast model te trainen met audiogegevens?

Het trainen van een model met audiogegevens kan een langdurig proces zijn. Afhankelijk van de hoeveelheid gegevens kan het enkele dagen duren om een aangepast model te maken. Als deze niet binnen één week kan worden voltooid, kan de service de trainingsbewerking afbreken en het model rapporteren als mislukt.

Gebruik een van de regio's waar toegewezen hardware beschikbaar is voor training. De Speech-service gebruikt maximaal 20 uur aan audio voor training in deze regio's. In andere regio's duurt het maximaal acht uur.

Over het algemeen verwerkt de service ongeveer 10 uur aan audiogegevens per dag in regio's met toegewezen hardware. In andere regio's kan slechts ongeveer 1 uur aan audiogegevens per dag worden verwerkt. U kunt het volledig getrainde model kopiëren naar een andere regio met behulp van REST API. Het trainen met alleen tekst gaat veel sneller en duurt meestal binnen enkele minuten.

Sommige basismodellen kunnen niet worden aangepast met audiogegevens. Voor hen gebruikt de service alleen de tekst van de transcriptie voor training en negeert de audiogegevens. De training wordt dan veel sneller voltooid en de resultaten zijn hetzelfde als trainen met alleen tekst. Zie Taalondersteuning voor een lijst met basismodellen die ondersteuning bieden voor training met audiogegevens.

Nauwkeurigheid testen

Wat is woordfoutfrequentie (WER) en hoe wordt het berekend?

WER is de evaluatie metriek voor spraakherkenning. WER wordt geteld als het totale aantal fouten, waaronder invoegingen, verwijderingen en vervangingen, gedeeld door het totale aantal woorden in de referentietranscriptie. Zie Evaluate Custom Speech accuracy (Nauwkeurigheid van aangepaste spraak evalueren) voor meer informatie.

Hoe kan ik bepalen of de resultaten van een nauwkeurigheidstest goed zijn?

De resultaten geven een vergelijking weer tussen het basislijnmodel en het model dat u hebt aangepast. U moet erop gericht zijn om het basislijnmodel te versterken om aanpassing de moeite waard te maken.

Hoe kan ik de WER van een basismodel bepalen, zodat ik kan zien of er een verbetering is?

De offline testresultaten tonen de nauwkeurigheid van de basislijn van het aangepaste model en de verbetering ten opzichte van de basislijn.

Een taalmodel maken

Hoeveel tekstgegevens moet ik uploaden?

Het hangt ervan af hoe verschillend de woordenlijst en woordgroepen die in uw toepassing worden gebruikt, verschillen van de begintaalmodellen. Voor alle nieuwe woorden is het handig om zo veel mogelijk voorbeelden van het gebruik van deze woorden te bieden. Voor veelvoorkomende zinnen die in uw toepassing worden gebruikt, met inbegrip van woordgroepen in de taalgegevens, is dit ook handig omdat het systeem wordt verteld om ook naar deze termen te luisteren. Het is gebruikelijk om ten minste 100 en meestal honderden of meer utterances in de taalset te hebben. Als van sommige typen query's wordt verwacht dat ze vaker voorkomen dan andere, kunt u ook meerdere exemplaren van de algemene query's in de gegevensset invoegen.

Kan ik gewoon een lijst met woorden uploaden?

Als u een lijst met woorden uploadt, worden de woorden toegevoegd aan de woordenlijst, maar het systeem leert niet hoe de woorden doorgaans worden gebruikt. Door volledige of gedeeltelijke utterances (zinnen of zinnen van dingen die gebruikers waarschijnlijk zullen zeggen) op te geven, kan het taalmodel de nieuwe woorden leren en hoe ze worden gebruikt. Het aangepaste taalmodel is niet alleen goed voor het toevoegen van nieuwe woorden aan het systeem, maar ook voor het aanpassen van de kans op bekende woorden voor uw toepassing. Door volledige utterances te bieden, kan het systeem beter leren.

Tenantmodel (Custom Speech met Microsoft 365 gegevens)

Welke informatie is opgenomen in het tenantmodel en hoe wordt deze gemaakt?

Een tenantmodel is gebouwd met behulp van openbare groeps-e-mailberichten en -documenten die door iedereen in uw organisatie kunnen worden gezien.

Welke spraakervaringen worden verbeterd door het tenantmodel?

Wanneer het tenantmodel is ingeschakeld, gemaakt en gepubliceerd, wordt het gebruikt om de herkenning te verbeteren voor bedrijfstoepassingen die zijn gebouwd met behulp van de Speech-service; die ook een Azure AD-token van een gebruiker door geeft om het lidmaatschap aan de onderneming aan te geven.

De spraakervaringen die zijn ingebouwd in Microsoft 365, zoals Dicteren en PowerPoint Ondertiteling, worden niet gewijzigd wanneer u een tenantmodel maakt voor uw Speech Service-toepassingen.