Uw spraakmodel maken en gebruiken
In Trainingsgegevens voorbereiden hebtu geleerd over de verschillende gegevenstypen die u kunt gebruiken om een aangepaste neurale stem en de verschillende indelingsvereisten te trainen. Zodra u uw gegevens en de gesproken woordenverklaring voor spraak talent hebt voorbereid, kunt u beginnen met het uploaden ervan naar de Speech Studio. In dit artikel leert u hoe u een Aangepaste neurale stem via de Speech Studio portal. Zie de ondersteunde talen voor aangepaste neurale spraak.
Vereisten
Spraak talent instellen
Een spraak talent is een individuele of doelspreker waarvan de stemmen worden opgenomen en gebruikt om neurale stemmodellen te maken. Voordat u een stem maakt, definieert u de persona van uw stem en selecteert u een talent voor de juiste stem. Zie de zelfstudie voor meer informatie over het opnemen van spraakvoorbeelden.
Als u een neurale stem wilt trainen, moet u een profiel voor spraak talent maken met een audiobestand dat is opgenomen door het spraak talent dat toestemming geeft voor het gebruik van hun spraakgegevens om een aangepast spraakmodel te trainen. Zorg er bij het voorbereiden van het opnamescript voor dat u de volgende zin opneemt:
"Ik [mijn voor- en achternaam] weet dat opnamen van mijn stem door [de naam van het bedrijf] worden gebruikt om een synthetische versie van mijn stem te maken en te gebruiken. Deze zin wordt gebruikt om te controleren of de trainingsgegevens overeenkomt met de audio in de toestemmingsverklaring. > meer informatie over de verificatie van spraak talent hier.
Notitie
Aangepaste neurale stem is beschikbaar met beperkte toegang. Zorg ervoor dat u de verantwoordelijke AI-vereisten begrijpten vraag vervolgens toegang aan.
In de volgende stappen wordt ervan uitgenomen dat u de gesproken toestemmingsbestanden voor spraak talent hebt voorbereid. Ga naar Speech Studio een aangepast neurale spraakproject te selecteren en volg de volgende stappen om een profiel voor spraak talent te maken.
Navigeer naar Tekst-naar-Custom Voice > > selecteer een project > Spraak talent instellen.
Selecteer Spraak talent toevoegen.
Als u vervolgens stemkenmerken wilt definiëren, selecteert u Doelscenario dat moet worden gebruikt. Beschrijf vervolgens uw stemkenmerken.
Notitie
De scenario's die u op biedt, moeten consistent zijn met wat u hebt toegepast in het toepassingsformulier.
- Ga vervolgens naar Upload voice talent statement, volg de instructies voor het uploaden van de voice-talent-instructie die u van tevoren hebt voorbereid.
Notitie
Zorg ervoor dat de gesproken instructie wordt vastgelegd in dezelfde instellingen als uw trainingsgegevens, met inbegrip van de opnameomgeving en spreekstijl.
- Ga ten slotte naar Controleren en maken, controleer de instellingen en selecteer Verzenden.
Upload gegevens
Wanneer u klaar bent om uw gegevens te uploaden, gaat u naar het tabblad Trainingsgegevens voorbereiden om uw eerste trainingsset toe te voegen en gegevens te uploaden. Een trainingsset is een set audio-utterances en de toewijzingsscripts die worden gebruikt voor het trainen van een spraakmodel. U kunt een trainingsset gebruiken om uw trainingsgegevens te organiseren. Gegevens gereedheidscontrole wordt uitgevoerd per trainingsset. U kunt meerdere gegevens importeren in een trainingsset.
U kunt het volgende doen om uw trainingsgegevens te maken en te controleren.
Selecteer op het tabblad Trainingsgegevens voorbereiden de optie Trainingsset toevoegen om Naam en Beschrijving maken in te voeren > om een nieuwe trainingsset toe te voegen.
Wanneer de trainingsset is gemaakt, kunt u beginnen met het uploaden van uw gegevens.
Als u gegevens wilt uploaden, selecteert u Upload Gegevenstype > > kiezen Upload-gegevens en geeft u de doeltrainingsset op > Voer een naam en beschrijving voor uw gegevens > controleert u de instellingen en selecteert u Verzenden.
Notitie
- Dubbele audionamen worden verwijderd uit de training. Zorg ervoor dat de gegevens die u selecteert niet dezelfde audionamen bevatten in het .zip bestand of in meerdere .zip bestanden. Als uitings-ID's (in audio- of scriptbestanden) dubbel zijn, worden ze geweigerd.
- Als u gegevensbestanden hebt gemaakt in de vorige versie van Speech Studio, moet u vooraf een trainingsset voor uw gegevens opgeven om deze te gebruiken. Anders wordt er een uitroepteken toegevoegd aan de naam van de gegevens en kunnen de gegevens niet worden gebruikt.
Elke gegevens die u uploadt, moeten voldoen aan de vereisten voor het gegevenstype dat u kiest. Het is belangrijk om uw gegevens correct op te maken voordat ze worden geüpload, waardoor de gegevens nauwkeurig worden verwerkt door de Aangepaste neurale stem service. Ga naar Trainingsgegevens voorbereiden en zorg ervoor dat uw gegevens juist zijn opgemaakt.
Notitie
- Standaardabonnementsgebruikers (S0) kunnen tegelijkertijd vijf gegevensbestanden uploaden. Als u de limiet bereikt, wacht u totdat ten minste één van uw gegevensbestanden is geïmporteerd. Probeer het vervolgens opnieuw.
- Het maximum aantal gegevensbestanden dat per abonnement mag worden geïmporteerd, is 10 .zip-bestanden voor gebruikers van een gratis abonnement (F0) en 500 voor standaardabonnementsgebruikers (S0).
Gegevensbestanden worden automatisch gevalideerd zodra u op de knop Verzenden klikt. Gegevensvalidatie omvat een reeks controles van de audiobestanden om de bestandsindeling, grootte en steekproeffrequentie te controleren. Los eventuele fouten op en verzend deze opnieuw.
Zodra de gegevens zijn geüpload, kunt u de details bekijken in de detailweergave van de trainingsset. Op het tabblad Overzicht kunt u de uitspraakscores en het ruisniveau voor elk van uw gegevens verder controleren. De uitspraakscore varieert van 0 tot 100. Een score lager dan 70 duidt normaal gesproken op een spraakfout of niet-overeenkomende scripts. Een zwaar accent kan uw uitspraakscore verminderen en invloed hebben op de gegenereerde digitale stem.
Een hogere signaal-ruisverhouding (SNR) geeft lagere ruis in uw audio aan. Normaal gesproken kunt u een SNR van meer dan 50 bereiken door te registreren in professionele studio's. Audio met een SNR lager dan 20 kan leiden tot duidelijke ruis in uw gegenereerde stem.
U kunt overwegen om uitingen met lage uitspraakscores of slechte signaal-ruisverhoudingen opnieuw op te nemen. Als u deze uitingen niet opnieuw kunt opnemen, kunt u overwegen deze uitingen uit te sluiten van uw gegevens.
In Gegevensdetails kunt u de gegevensgegevens van de trainingsset controleren. Als er typische problemen zijn met de gegevens, volgt u de instructies in het bericht dat wordt weergegeven om deze vóór de training op te lossen.
De problemen zijn onderverdeeld in drie typen. Verwijzend naar de volgende drie tabellen om de respectieve typen fouten te controleren.
Los handmatig het eerste type fouten op dat in de onderstaande tabel wordt vermeld, anders worden de gegevens met deze fouten uitgesloten tijdens de training.
| Categorie | Naam | Beschrijving |
|---|---|---|
| Script | Ongeldig scheidingsteken | U moet de utterance-id en de scriptinhoud scheiden met een TAB-teken. |
| Script | Ongeldige script-id | De id van de scriptregel moet numeriek zijn. |
| Script | Gedupliceerd script | Elke regel van de scriptinhoud moet uniek zijn. De regel wordt gedupliceerd met {} . |
| Script | Script te lang | Het script moet minder dan 1000 tekens bevatten. |
| Script | Geen overeenkomende audio | De id van elke utterance (elke regel van het scriptbestand) moet overeenkomen met de audio-id. |
| Script | Geen geldig script | Er is geen geldig script gevonden in deze gegevensset. Los de scriptregels op die worden weergegeven in de gedetailleerde lijst met problemen. |
| Audio | Geen overeenkomend script | Er zijn geen audiobestanden die overeenkomen met de script-id. De naam van de wav-bestanden moet overeenkomen met de ID's in het scriptbestand. |
| Audio | Ongeldige audio-indeling | De audio-indeling van de WAV-bestanden is ongeldig. Controleer de wav-bestandsindeling met behulp van een audiohulpprogramma zoals SoX. |
| Audio | Lage steekproeffrequentie | De samplefrequentie van de WAV-bestanden mag niet lager zijn dan 16 KHz. |
| Audio | Te lange audio | Audioduur is langer dan 30 seconden. Splits de lange audio in meerdere bestanden. We raden u aan dat utterances korter zijn dan 15 seconden. |
| Audio | Geen geldige audio | Er is geen geldige audio gevonden in deze gegevensset. Controleer uw audiogegevens en upload opnieuw. |
Het tweede type fouten dat in de onderstaande tabel wordt vermeld, wordt automatisch opgelost, maar het wordt aanbevolen om de vaste gegevens te controleren.
| Categorie | Naam | Beschrijving |
|---|---|---|
| Audio | Stereo audio automatisch opgelost | Gebruik mono in uw audiovoorbeeldopnamen. Stereo-audiokanalen worden automatisch samengevoegd in een monokanaal, wat inhoudsverlies kan veroorzaken. Download de genormaliseerde gegevensset en bekijk deze. |
| Volume | Volumepiek automatisch opgelost | De volumepiek moet binnen het bereik liggen van -3 dB (70% van het maximale volume) tot -6 dB (50%). Beheer de volumepieken tijdens de voorbeeldopname of gegevensvoorbereiding. Deze audio wordt lineair geschaald om het piekbereik automatisch aan te passen (-4 dB of 65%). Download de genormaliseerde gegevensset en bekijk deze. |
| Mismatch | Stilte automatisch opgelost | De stilte van het begin is langer dan 200 ms en is automatisch ingekort tot 200 ms. Download de genormaliseerde gegevensset en bekijk deze. |
| Mismatch | Stilte automatisch opgelost | De laatste stilte is langer dan 200 ms en is automatisch ingekort tot 200 ms. Download de genormaliseerde gegevensset en bekijk deze. |
| Mismatch | Stilte automatisch opgelost | De start stilte wordt gedetecteerd als korter dan 100 ms en is automatisch uitgebreid naar 100 ms. Download de genormaliseerde gegevensset en bekijk deze. |
| Mismatch | Stilte automatisch opgelost | De end-stilte wordt gedetecteerd als korter dan 100 ms en is automatisch uitgebreid naar 100 ms. Download de genormaliseerde gegevensset en bekijk deze. |
Als het derde type fouten dat in de onderstaande tabel wordt vermeld, niet wordt opgelost, hoewel de gegevens met deze fouten niet worden uitgesloten tijdens de training, heeft dit invloed op de kwaliteit van de training. Voor training van hogere kwaliteit wordt aangeraden deze fouten handmatig op te verhelpen.
| Categorie | Naam | Beschrijving |
|---|---|---|
| Script | Niet-genormaliseerde tekst | Dit script bevat het cijfer 0-9. Vouw ze uit naar genormaliseerde woorden en match met de audio. Normaliseer bijvoorbeeld '123' naar 'honderdtwintig'. |
| Script | Niet-genormaliseerde tekst | Dit script bevat symbolen {} . Normaliseer de symbolen zo dat ze overeenkomen met de audio. Bijvoorbeeld '50%' tot '50 procent'. |
| Script | Onvoldoende vraag-utterances | Ten minste 10% van het totale aantal utterances moet vraagse zinnen zijn. Dit helpt het spraakmodel een vragende toon juist uit te drukken. |
| Script | Onvoldoende uitroepen | Ten minste 10% van het totale aantal uitingen moet uitroeptekens zijn. Dit helpt het spraakmodel een enthousiast toon te uiten. |
| Audio | Lage samplingfrequentie voor neurale spraak | Het is raadzaam dat de samplingfrequentie van uw WAV-bestanden 24 KHz of hoger is voor het maken van neurale stemmen. Deze wordt automatisch bijgewerkt naar 24 KHz als deze lager is. |
| Volume | Het totale volume is te laag | Het volume mag niet lager zijn dan -18 dB (10% van het maximale volume). Beheer het gemiddelde volumeniveau binnen het juiste bereik tijdens de voorbeeldopname of gegevensvoorbereiding. |
| Volume | Volumeoverloop | Overlopend volume wordt gedetecteerd op {} s. Pas de opnameapparatuur aan om te voorkomen dat het volume op piekwaarde overloopt. |
| Volume | Probleem met stilte starten | De eerste 100 ms stilte is niet schoon. Verminder het niveau van de opnameruis en laat de eerste 100 ms aan het begin op de achtergrond staan. |
| Volume | Probleem met stilte beëindigen | De laatste 100 ms stilte is niet schoon. Verminder het niveau van de opnameruis en laat de laatste 100 ms op de achtergrond staan. |
| Mismatch | Woorden met een lage score | Bekijk het script en de audio-inhoud om er zeker van te zijn dat ze overeenkomen en het niveau van de ruisbesturing bepalen. Verminder de lengte van lange stilte of splits de audio in meerdere utterances als deze te lang is. |
| Mismatch | Probleem met stilte starten | Er is extra audio gehoord vóór het eerste woord. Bekijk het script en de audio-inhoud om er zeker van te zijn dat ze overeenkomen, het niveau van de ruis te bepalen en de eerste 100 ms op de achtergrond te houden. |
| Mismatch | Probleem met stilte beëindigen | Er is extra audio gehoord na het laatste woord. Bekijk het script en de audio-inhoud om er zeker van te zijn dat ze overeenkomen, beheer het niveau van de ruis en maak de laatste 100 ms stil. |
| Mismatch | Lage signaalruisverhouding | Het SNR-niveau audio is lager dan 20 dB. Ten minste 35 dB wordt aanbevolen. |
| Mismatch | Er is geen score beschikbaar | Kan geen spraakinhoud in deze audio herkennen. Controleer de audio en de scriptinhoud om te controleren of de audio geldig is en overeenkomt met het script. |
Uw aangepaste neurale spraakmodel trainen
Nadat uw gegevensbestanden zijn gevalideerd, kunt u ze gebruiken om uw aangepaste neurale spraakmodel te bouwen.
Selecteer op het tabblad Train model de optie Train model om een spraakmodel te maken met de gegevens die u hebt geüpload.
Selecteer de neurale trainingsmethode voor uw model en doeltaal.
Uw spraakmodel wordt standaard getraind in dezelfde taal als uw trainingsgegevens. U kunt er ook voor kiezen om een secundaire taal (preview) voor uw spraakmodel te maken. Controleer de talen die worden ondersteund voor aangepaste neurale spraak en meertalige functies: taal voor aanpassing.
Het trainen van aangepaste neurale stemmen is niet gratis. Bekijk de prijzen voor meer informatie. Als u echter statistische parametrische of samenvoegingsstemmodellen hebt geïmplementeerd vóór 31-31-2021 met S0 Speech-resources, worden gratis neurale trainingstegoeden aangeboden aan uw Azure-abonnement en kunt u gratis 5 verschillende versies van neurale stemmen trainen.
- Kies vervolgens de gegevens die u wilt gebruiken voor de training en geef een sprekerbestand op.
Notitie
- U moet ten minste 300 utterances selecteren om een aangepaste neurale stem te maken.
- Als u een neurale stem wilt trainen, moet u een profiel voor spraak talent opgeven met het audiotoekenningsbestand van het spraak talent dat bevestigt dat hij/zij zijn/haar spraakgegevens moet gebruiken om een aangepast spraakmodel te trainen. Aangepaste neurale stem is beschikbaar met beperkte toegang. Zorg ervoor dat u de vereisten voor verantwoorde AI begrijpt en pas de toegang hier toe.
- Kies vervolgens uw testscript.
Elke training genereert automatisch 100 voorbeeldaudiobestanden om u te helpen het model te testen met een standaardscript. U kunt ook uw eigen testscript als optioneel leveren. Het testscript moet de bestandsnamen (de id van elke utterance) uitsluiten, anders worden deze id's gesproken. Hieronder vindt u een voorbeeld van hoe de utterances zijn ingedeeld in één .txt bestand:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
Elke alinea van de utterance resulteert in een afzonderlijke audio. Als u alle zinnen in één audio wilt combineren, maakt u ze in één alinea.
Notitie
- Het testscript moet een TXT-bestand van minder dan 1 MB zijn. Ondersteunde coderingsindeling omvat ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE of UTF-16-BE.
- De gegenereerde audio is een combinatie van het geüploade testscript en het standaardtestscript.
- Voer een naam en beschrijving in om u te helpen dit model te identificeren.
Kies zorgvuldig een naam. De naam die u hier invoert, is de naam die u gebruikt om de stem in uw aanvraag voor spraaksynthese op te geven als onderdeel van de SSML-invoer. Alleen letters, cijfers en enkele leestekens, zoals -, _, en (', ') zijn toegestaan. Gebruik verschillende namen voor verschillende neurale stemmodellen.
Een veelgebruikt gebruik van het veld Beschrijving is het registreren van de namen van de gegevens die zijn gebruikt om het model te maken.
- Controleer de instellingen en selecteer vervolgens Verzenden om te beginnen met het trainen van het model.
Notitie
Dubbele audionamen worden verwijderd uit de training. Zorg ervoor dat de gegevens die u selecteert niet dezelfde audionamen voor meerdere .zip bevatten.
In de tabel Model trainen wordt een nieuwe vermelding weergegeven die overeenkomt met dit zojuist gemaakte model. In de tabel wordt ook de status weergegeven: Processing, Succeeded, Failed.
De weergegeven status weerspiegelt het proces van het converteren van uw gegevens naar een spraakmodel, zoals hier wordt weergegeven.
| Staat | Betekenis |
|---|---|
| Wordt verwerkt | Uw spraakmodel wordt gemaakt. |
| Geslaagd | Uw spraakmodel is gemaakt en kan worden geïmplementeerd. |
| Mislukt | Uw spraakmodel is mislukt tijdens de training vanwege verschillende redenen, zoals problemen met niet-beveiligde gegevens of netwerkproblemen. |
De duur van de training is afhankelijk van hoeveel gegevens u traint. Het duurt gemiddeld ongeveer 40 rekenuren om een aangepaste neurale stem te trainen.
Notitie
Standaardabonnementsgebruikers (S0) kunnen drie stemmen tegelijk trainen. Als u de limiet bereikt, wacht u totdat ten minste één van uw spraakmodellen is getraind en probeert u het opnieuw.
- Nadat u klaar bent met het trainen van het model, kunt u de details van het model bekijken.
Nadat uw spraakmodel is gebouwd, kunt u de gegenereerde voorbeeldaudiobestanden gebruiken om het te testen voordat u het implementeert voor gebruik.
De kwaliteit van de stem is afhankelijk van veel factoren, waaronder de grootte van de trainingsgegevens, de kwaliteit van de opname, de nauwkeurigheid van het transcriptbestand, hoe goed de opgenomen stem in de trainingsgegevens overeenkomt met de persoonlijkheid van de ontworpen stem voor uw beoogde gebruikscase, en meer. Kijk hier voor meer informatie over de mogelijkheden en limieten vanonze technologie en de best practice de kwaliteit van uw model te verbeteren.
Een eindpunt voor aangepaste neurale spraak maken en gebruiken
Nadat u uw spraakmodel hebt gemaakt en getest, implementeert u het in een aangepast Text-to-Speech-eindpunt. Vervolgens gebruikt u dit eindpunt in plaats van het gebruikelijke eindpunt bij het maken van tekst-naar-spraak-aanvragen via de REST API. Uw aangepaste eindpunt kan alleen worden aangeroepen door het abonnement dat u hebt gebruikt om het model te implementeren.
U kunt het volgende doen om een aangepast eindpunt voor neurale spraak te maken.
- Selecteer op het tabblad Model implementeren de optie Model implementeren.
- Voer vervolgens een naam en beschrijving in voor uw aangepaste eindpunt.
- Selecteer vervolgens een spraakmodel dat u aan dit eindpunt wilt koppelen.
- Selecteer ten slotte Implementeren om uw eindpunt te maken.
Nadat u op de knop Implementeren hebt geklikt, ziet u in de eindpunttabel een vermelding voor uw nieuwe eindpunt. Het kan enkele minuten duren om een nieuw eindpunt te instanteren. Wanneer de status van de implementatie Geslaagd is, is het eindpunt gereed voor gebruik.
U kunt uw eindpunt opschorten en hervatten als u het niet de hele tijd gebruikt. Wanneer een eindpunt na opzegging opnieuw wordt geactiveerd, wordt de eindpunt-URL op dezelfde manier bewaard, zodat u uw code in uw apps niet hoeft te wijzigen.
U kunt het eindpunt ook bijwerken naar een nieuw model. Als u het model wilt wijzigen, moet u ervoor zorgen dat het nieuwe model dezelfde naam heeft als het model dat u wilt bijwerken.
Notitie
- Standaardabonnementsgebruikers (S0) kunnen maximaal 50 eindpunten maken, elk met een eigen aangepaste neurale stem.
- Als u uw aangepaste neurale stem wilt gebruiken, moet u de naam van het spraakmodel opgeven, de aangepaste URI rechtstreeks in een HTTP-aanvraag gebruiken en hetzelfde abonnement gebruiken om de verificatie van de TTS-service door te geven.
Nadat het eindpunt is geïmplementeerd, wordt de naam van het eindpunt weergegeven als een koppeling. Klik op de koppeling om informatie weer te geven die specifiek is voor uw eindpunt, zoals de eindpuntsleutel, eindpunt-URL en voorbeeldcode.
Het aangepaste eindpunt is functioneel identiek aan het standaard-eindpunt dat wordt gebruikt voor tekst-naar-spraak-aanvragen. Zie Speech SDK of REST API voor meer REST API.
We bieden ook een online hulpprogramma, audio-inhoud maken,waarmee u de audio-uitvoer kunt afstemmen met behulp van een gebruikersinterface.