Veelgestelde vragen over spraak-naar-tekst

In dit artikel vindt u antwoorden op veelgestelde vragen over de spraak-naar-tekstservice. Als u hier geen antwoorden op uw vragen kunt vinden, bekijkt u andere ondersteuningsopties.

Algemeen

Wat is het verschil tussen een basismodel en een aangepast spraak-naar-tekstmodel?

Een basislijn voor spraak naar tekst wordt getraind met gegevens die eigendom zijn van Microsoft en is al geïmplementeerd in de cloud. U kunt een aangepast model maken en gebruiken om een omgeving met specifieke omgevingsruis of taal beter aan te passen. Fabrieksvloeren, auto's of lawaaierige straten zouden een aangepast akoestisch model nodig hebben. Onderwerpen zoals biologie, natuurkunde, radiologie, productnamen en aangepaste acroniemen vereisen een aangepast taalmodel. Als u een aangepast model wilt trainen, moet u beginnen met gerelateerde tekst om de herkenning van speciale termen en woordgroepen te verbeteren.

Waar begin ik als ik een basismodel wil gebruiken?

Haal eerst een spraakresourcesleutel en -regio op in Azure Portal. Als u REST-aanroepen wilt uitvoeren naar een vooraf geïmplementeerd basismodel, raadpleegt u de DOCUMENTATIE over REST API's . Als u WebSockets wilt gebruiken, downloadt u de Speech SDK.

Moet ik altijd een aangepast spraakmodel maken?

Nee Als uw toepassing gebruikmaakt van algemene, dagelijkse taal, hoeft u geen model aan te passen. Als uw toepassing wordt gebruikt in een omgeving waar weinig of geen achtergrondgeluiden zijn, hoeft u geen model aan te passen.

U kunt basislijn- en aangepaste modellen implementeren in de portal en vervolgens nauwkeurigheidstests uitvoeren. U kunt deze functie gebruiken om de nauwkeurigheid van een basismodel te meten ten opzichte van een aangepast model.

Hoe kan ik weten wanneer de verwerking voor mijn gegevensset of model is voltooid?

Op dit moment is het alleen mogelijk om de status van het model of de gegevensset in de tabel weer te geven. Wanneer de verwerking is voltooid, is de status Geslaagd.

Kan ik meer dan één model maken?

Er is geen limiet voor het aantal modellen dat u in uw verzameling kunt hebben.

Ik besefte dat ik een fout maakte. Hoe kan ik het importeren van gegevens of het maken van een model annuleren die wordt uitgevoerd?

Op dit moment kunt u geen akoestisch of taalaanpassingsproces terugdraaien. U kunt geïmporteerde gegevens en modellen verwijderen wanneer ze een terminalstatus hebben.

Ik krijg verschillende resultaten voor elke woordgroep met de gedetailleerde uitvoerindeling. Welke moet ik gebruiken?

Neem altijd het eerste resultaat, zelfs als een ander resultaat ('N-Best') mogelijk een hogere betrouwbaarheidswaarde heeft. Speech Service beschouwt het eerste resultaat als het beste. Het resultaat kan ook een lege tekenreeks zijn als er geen spraak is herkend.

De andere resultaten zijn waarschijnlijk slechter en hebben mogelijk geen volledig hoofdlettergebruik en interpunctie toegepast. Deze resultaten zijn het handigst in speciale scenario's, zoals gebruikers de mogelijkheid geven om correcties uit een lijst te kiezen of onjuist herkende opdrachten te verwerken.

Waarom zijn er meerdere basismodellen?

U kunt kiezen uit meer dan één basismodel in de Speech-service. Elke modelnaam bevat de datum waarop het is toegevoegd. Wanneer u begint met het trainen van een aangepast model, gebruikt u het meest recente model om de beste nauwkeurigheid te verkrijgen. Oudere basismodellen zijn nog enige tijd beschikbaar nadat een nieuw model beschikbaar is gesteld. U kunt het model waarmee u hebt gewerkt blijven gebruiken totdat het buiten gebruik is gesteld (zie de levenscyclus van het model en het eindpunt). We raden u nog steeds aan over te schakelen naar het meest recente basismodel voor betere nauwkeurigheid.

Kan ik mijn bestaande model bijwerken (modelstacking)?

U kunt een bestaand model niet bijwerken. Combineer als oplossing de oude gegevensset met de nieuwe gegevensset en leesbewerking.

De oude gegevensset en de nieuwe gegevensset moeten worden gecombineerd in één .zip bestand (voor akoestische gegevens) of in een .txt-bestand (voor taalgegevens). Wanneer de aanpassing is voltooid, implementeert u het nieuwe, bijgewerkte model opnieuw om een nieuw eindpunt te verkrijgen.

Wanneer er een nieuwe versie van een basismodel beschikbaar is, wordt mijn implementatie automatisch bijgewerkt?

Implementaties worden niet automatisch bijgewerkt.

Als u een model hebt aangepast en geïmplementeerd, blijft de bestaande implementatie ongewijzigd. U kunt het geïmplementeerde model buiten gebruik stellen, het model lezen met behulp van de nieuwere versie van het basismodel en het opnieuw implementeren voor een betere nauwkeurigheid.

Zowel basismodellen als aangepaste modellen worden na enige tijd buiten gebruik gesteld (zie de levenscyclus van modellen en eindpunten).

Kan ik mijn model downloaden en lokaal uitvoeren?

U kunt een aangepast model lokaal uitvoeren in een Docker-container.

Kan ik mijn gegevenssets, modellen en implementaties kopiëren of verplaatsen naar een andere regio of abonnement?

U kunt de Models_Copy REST API gebruiken om een aangepast model naar een andere regio of een ander abonnement te kopiëren. Gegevenssets en implementaties kunnen niet worden gekopieerd. U kunt een gegevensset opnieuw importeren in een ander abonnement en daar eindpunten maken met behulp van de modelkopieën.

Worden mijn aanvragen geregistreerd?

Aanvragen worden standaard niet geregistreerd (noch audio of transcriptie). Indien nodig kunt u de logboekinhoud van dit eindpunt selecteren wanneer u een aangepast eindpunt maakt. U kunt ook audiologboekregistratie inschakelen in de Speech SDK per aanvraag, zonder dat u een aangepast eindpunt hoeft te maken. In beide gevallen worden audio- en herkenningsresultaten van aanvragen opgeslagen in beveiligde opslag. Abonnementen die gebruikmaken van opslag in eigendom van Microsoft zijn 30 dagen beschikbaar.

U kunt de geregistreerde bestanden op de implementatiepagina in Speech Studio exporteren als u een aangepast eindpunt gebruikt met logboekinhoud van dit eindpunt ingeschakeld. Als audiologboekregistratie is ingeschakeld via de SDK, roept u de API aan om toegang te krijgen tot de bestanden. U kunt de API ook gebruiken om de logboeken op elk gewenst moment te verwijderen.

Worden mijn aanvragen beperkt?

Zie quota en limieten voor de Speech-service voor meer informatie.

Hoe worden er kosten in rekening gebracht voor audio in twee kanalen?

Als u elk kanaal afzonderlijk in hun eigen bestand verzendt, worden er kosten in rekening gebracht voor de audioduur van elk bestand. Als u één bestand verzendt met de kanalen die samen zijn ge multiplexeerd, worden er kosten in rekening gebracht voor de duur van het ene bestand. Zie de pagina met prijzen van Azure AI-services voor meer informatie over prijzen.

Belangrijk

Als u verdere privacyproblemen hebt die verhinderen dat u de aangepaste spraakservice gebruikt, neemt u contact op met een van de ondersteuningskanalen.

Gelijktijdigheid verhogen

Zie quota en limieten voor de Speech-service voor meer informatie.

Gegevens importeren

Wat is de limiet voor de grootte van een gegevensset en waarom is dit de limiet?

De limiet is vanwege de beperking van de grootte van bestanden voor HTTP-upload. Zie quota en limieten voor de Speech-service voor de werkelijke limiet. U kunt uw gegevens splitsen in meerdere gegevenssets en ze allemaal selecteren om het model te trainen.

Kan ik mijn tekstbestanden zippen (comprimeren), zodat ik een groter tekstbestand kan uploaden?

Nee Momenteel zijn alleen niet-gecomprimeerde tekstbestanden toegestaan.

In het gegevensrapport staat dat er mislukte utterances zijn. Wat is het probleem?

Een fout bij het uploaden van 100 procent van de uitingen in een bestand is geen probleem. Als de meeste uitingen in een akoestische of taalgegevensset (bijvoorbeeld meer dan 95 procent) zijn geïmporteerd, kan de gegevensset bruikbaar zijn. We raden u echter nog steeds aan te begrijpen waarom de uitingen zijn mislukt en vervolgens het probleem op te lossen. De meest voorkomende problemen, zoals opmaakfouten, zijn eenvoudig op te lossen.

Een akoestisch model maken

Hoeveel akoestische gegevens heb ik nodig?

We raden u aan om te beginnen met 30 minuten tot 1 uur akoestische gegevens.

Welke gegevens moet ik verzamelen?

Verzamel gegevens die zich zo dicht mogelijk bij het toepassingsscenario en het gebruiksscenario bevinden. De gegevensverzameling moet overeenkomen met de doeltoepassing en gebruikers in termen van apparaten of apparaten, omgevingen en typen luidsprekers. Over het algemeen moet u gegevens verzamelen van zo breed mogelijke sprekers.

Hoe moet ik akoestische gegevens verzamelen?

U kunt een zelfstandige toepassing voor gegevensverzameling maken of off-the-shelf audio-opnamesoftware gebruiken. U kunt ook een versie van uw toepassing maken die de audiogegevens registreert en vervolgens de gegevens gebruikt.

Moet ik zelf aanpassingsgegevens transcriberen?

Ja. U kunt het zelf transcriberen of een professionele transcriptieservice gebruiken. Sommige gebruikers geven de voorkeur aan professionele transcriberen en anderen gebruiken crowdsourcing of transcribeer de gegevens zelf.

Hoe lang duurt het om een aangepast model met audiogegevens te trainen?

Het trainen van een model met audiogegevens kan een langdurig proces zijn. Afhankelijk van de hoeveelheid gegevens kan het enkele dagen duren om een aangepast model te maken. Als het niet binnen één week kan worden voltooid, kan de service de trainingsbewerking afbreken en het model rapporteren als mislukt.

Over het algemeen verwerkt de Speech-service ongeveer 10 uur audiogegevens per dag in regio's met toegewezen hardware. Het kan slechts ongeveer 1 uur audiogegevens per dag verwerken in andere regio's. Training met tekst is alleen sneller en wordt gewoonlijk binnen enkele minuten voltooid.

Gebruik een van de regio's waar toegewezen hardware beschikbaar is voor training. De Speech-service gebruikt maximaal 20 uur audio voor training in deze regio's. In andere regio's gebruikt de Speech-service maximaal 8 uur.

Nauwkeurigheidstests

Wat is woordfoutpercentage (WER) en hoe wordt het berekend?

WER is de metrische evaluatiewaarde voor spraakherkenning. WER wordt berekend als het totale aantal fouten (invoegingen, verwijderingen en vervangingen), gedeeld door het totale aantal woorden in de verwijzingtranscriptie. Zie Model kwantitatief testen voor meer informatie.

Hoe kan ik bepalen of de resultaten van een nauwkeurigheidstest goed zijn?

De resultaten tonen een vergelijking tussen het basismodel en het model dat u hebt aangepast. Als u de aanpassing de moeite waard wilt maken, moet u het basismodel verslaan.

Hoe kan ik de WER van een basismodel bepalen, zodat ik kan zien of het is verbeterd?

De resultaten van de offlinetest tonen de nauwkeurigheid van de basislijn van het aangepaste model en de verbetering ten opzichte van de basislijn.

Een taalmodel maken

Hoeveel tekstgegevens moet ik uploaden?

Het hangt af van hoe verschillend de woordenschat en woordgroepen die in uw toepassing worden gebruikt, zijn van de begintaalmodellen. Voor alle nieuwe woorden is het handig om zoveel mogelijk voorbeelden te geven van het gebruik van deze woorden. Voor veelgebruikte woordgroepen die in uw toepassing worden gebruikt, inclusief zinnen in de taalgegevens, is het handig om veel voorbeelden te geven, omdat het systeem ook naar deze termen moet luisteren. Het is gebruikelijk om ten minste 100 en gewoonlijk enkele honderd of meer uitingen in de taalgegevensset te hebben. Als sommige typen query's naar verwachting vaker voorkomen dan andere, kunt u meerdere kopieën van de algemene query's in de gegevensset invoegen.

Kan ik gewoon een lijst met woorden uploaden?

Als u een lijst met woorden uploadt, worden ze toegevoegd aan het vocabulaire, maar leert het systeem niet hoe de woorden gewoonlijk worden gebruikt. Door volledige of gedeeltelijke uitingen (zinnen of woordgroepen van dingen die gebruikers waarschijnlijk zullen zeggen) op te geven, kan het taalmodel de nieuwe woorden leren en hoe ze worden gebruikt. Het aangepaste taalmodel is niet alleen geschikt voor het toevoegen van nieuwe woorden aan het systeem, maar ook voor het aanpassen van de kans op bekende woorden voor uw toepassing. Het leveren van volledige utterances helpt het systeem beter te leren.