Talsyntes med verktyget För att skapa ljudinnehåll

Artikel
01/18/2024

Du kan använda verktyget Skapa ljudinnehåll i Speech Studio för text till talsyntes utan att skriva någon kod. Du kan använda utdataljudet som det är eller som utgångspunkt för ytterligare anpassning.

Skapa mycket naturligt ljudinnehåll för olika scenarier, till exempel ljudböcker, nyhetssändningar, videouppläsningar och chattrobotar. Med skapande av ljudinnehåll kan du effektivt finjustera text till talröster och utforma anpassade ljudupplevelser.

Verktyget är baserat på Speech Synthesis Markup Language (SSML). Det gör att du kan justera attribut för text till talutdata i realtid eller batchsyntes, till exempel rösttecken, röstformat, talhastighet, uttal och prosody.

Metod utan kod: Du kan använda verktyget Skapa ljudinnehåll för text till talsyntes utan att skriva någon kod. Utdataljudet kan vara den slutliga slutprodukt som du vill använda. Du kan till exempel använda utdataljudet för en podcast eller en videoberättelse.
Utvecklarvänlig: Du kan lyssna på utdataljudet och justera SSML för att förbättra talsyntesen. Sedan kan du använda Speech SDK eller Speech CLI för att integrera SSML i dina program. Du kan till exempel använda SSML för att skapa en chattrobot.

Du har enkel åtkomst till en bred portfölj med språk och röster. Dessa röster inkluderar toppmoderna fördefinierade neurala röster och din anpassade neurala röst, om du har skapat en.

Mer information finns i självstudien om att skapa ljudinnehåll på YouTube.

Kom igång

Verktyget Skapande av ljudinnehåll i Speech Studio är kostnadsfritt, men du betalar för användning av Speech-tjänsten. Om du vill arbeta med verktyget måste du logga in med ett Azure-konto och skapa en Speech-resurs. För varje Azure-konto har du kostnadsfria månatliga talkvoter, som innehåller 0,5 miljoner tecken för fördefinierade neurala röster (kallas neurala på prissidan). Vanligtvis räcker det månatliga tilldelade beloppet för ett litet innehållsteam på cirka 3-5 personer.

I nästa avsnitt beskrivs hur du skapar ett Azure-konto och hämtar en Speech-resurs.

Steg 1: Skapa ett Azure-konto

Om du vill arbeta med skapande av ljudinnehåll behöver du ett Microsoft-konto och ett Azure-konto.

Azure-portalen är den centraliserade platsen där du kan hantera ditt Azure-konto. Du kan skapa Speech-resursen, hantera produktåtkomsten och övervaka allt från enkla webbappar till komplexa molndistributioner.

Steg 2: Skapa en Speech-resurs

När du har registrerat dig för Azure-kontot måste du skapa en Speech-resurs i ditt Azure-konto för att få åtkomst till Speech-tjänster. Skapa en Speech-resurs på Azure-portalen. Mer information finns i Skapa en resurs med flera tjänster.

Det tar en stund att distribuera den nya Speech-resursen. När distributionen är klar kan du börja använda verktyget Skapa ljudinnehåll.

Kommentar

Om du planerar att använda neurala röster kontrollerar du att du skapar resursen i en region som stöder neurala röster.

När du har hämtat Azure-kontot och Speech-resursen loggar du in på Speech Studio och väljer sedan Skapa ljudinnehåll.
Välj den Azure-prenumeration och den Speech-resurs som du vill arbeta med och välj sedan Använd resurs.

Nästa gång du loggar in på Skapa ljudinnehåll länkas du direkt till ljudarbetsfilerna under den aktuella Speech-resursen. Du kan kontrollera information och status för din Azure-prenumeration i Azure-portalen.

Om du inte har någon tillgänglig Speech-resurs och du är ägare eller administratör för en Azure-prenumeration kan du skapa en Speech-resurs i Speech Studio genom att välja Skapa en ny resurs.

Om du har en användarroll för en viss Azure-prenumeration kanske du inte har behörighet att skapa en ny Speech-resurs. Kontakta administratören för att få åtkomst.

Om du vill byta talresurs när som helst väljer du Inställningar överst på sidan.

Om du vill byta katalog väljer du Inställningar eller går till din profil.

Använd verktyget

Följande diagram visar processen för att finjustera text till tal-utdata.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Varje steg i föregående diagram beskrivs här:

Välj den Speech-resurs som du vill arbeta med.
Skapa en ljudjusteringsfil med oformaterad text eller SSML-skript. Ange eller ladda upp ditt innehåll till Skapande av ljudinnehåll.
Välj röst och språk för skriptinnehållet. Skapande av ljudinnehåll innehåller all fördefinierad text till talröster. Du kan använda fördefinierade neurala röster eller en anpassad neural röst.

Kommentar

Gated access är tillgänglig för anpassad neural röst, vilket gör att du kan skapa hd-röster som liknar naturligt klingande tal. Mer information finns i Gating-processen.
Välj det innehåll som du vill förhandsgranska och välj sedan Spela upp (triangelikon) för att förhandsgranska standardsyntesutdata.

Om du gör några ändringar i texten väljer du stoppikonen och sedan Spela upp igen för att återskapa ljudet med ändrade skript.

Förbättra utdata genom att justera uttal, brytpunkt, tonhöjd, hastighet, intonation, röststil med mera. En fullständig lista över alternativ finns i Talsyntesmarkeringsspråk.

Mer information om finjustering av talutdata finns i videon Så här konverterar du text till tal med hjälp av Microsoft Azure AI-röster .
Spara och exportera ditt inställda ljud.

När du sparar justeringsspåret i systemet kan du fortsätta att arbeta och iterera på utdata. När du är nöjd med utdata kan du skapa en uppgift för att skapa ljud med exportfunktionen. Du kan se status för exportaktiviteten och ladda ned utdata för användning med dina appar och produkter.

Skapa en ljudjusteringsfil

Du kan hämta ditt innehåll till verktyget Skapa ljudinnehåll på något av två sätt:

Alternativ 1
1. Välj Ny>textfil för att skapa en ny ljudjusteringsfil.
2. Ange eller klistra in innehållet i redigeringsfönstret. Det tillåtna antalet tecken för varje fil är 20 000 eller färre. Om skriptet innehåller mer än 20 000 tecken kan du använda alternativ 2 för att automatiskt dela upp innehållet i flera filer.
3. Välj Spara.

Alternativ 2

Välj Ladda upp>textfil för att importera en eller flera textfiler. Både oformaterad text och SSML stöds.

Om skriptfilen är mer än 20 000 tecken delar du upp innehållet efter stycken, efter tecken eller med reguljära uttryck.

När du laddar upp textfilerna kontrollerar du att de uppfyller följande krav:

Property	beskrivning
File format	Oformaterad text (.txt)* SSML-text (.txt)** Zip-filer stöds inte.
Kodningsformat	UTF-8
Filnamn	Varje fil måste ha ett unikt namn. Dubblettfiler stöds inte.
Text length	Teckengränsen är 20 000. Om dina filer överskrider gränsen delar du upp dem enligt instruktionerna i verktyget.
SSML-begränsningar	Varje SSML-fil kan bara innehålla en enda SSML-fil.

* Exempel på oformaterad text:

Welcome to use Audio Content Creation to customize audio output for your products.

** Exempel på SSML-text:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exportera justerat ljud

När du har granskat ljudutdata och är nöjd med justeringen och justeringen kan du exportera ljudet.

Välj Exportera för att skapa en aktivitet för att skapa ljud.

Vi rekommenderar att du exporterar till ljudbiblioteket för att enkelt lagra, hitta och söka efter ljudutdata i molnet. Du kan integrera bättre med dina program via Azure Blob Storage. Du kan också ladda ned ljudet till din lokala disk direkt.

Välj utdataformatet för ditt inställda ljud. De ljudformat och exempelfrekvenser som stöds visas i följande tabell:

Format	8 kHz-exempelfrekvens	Exempelfrekvens på 16 kHz	24 kHz-exempelfrekvens	48 kHz-exempelfrekvens
Wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
Mp3	Ej tillämpligt	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Om du vill visa status för aktiviteten väljer du fliken Aktivitetslista .

Om aktiviteten misslyckas kan du se den detaljerade informationssidan för en fullständig rapport.
När uppgiften är klar är ljudet tillgängligt för nedladdning i fönstret Ljudbibliotek .
Välj den fil som du vill ladda ned och Ladda ned.

Nu är du redo att använda ditt anpassade anpassade ljud i dina appar eller produkter.

Konfigurera BYOS och anonym offentlig läsåtkomst för blobar

Om du förlorar åtkomstbehörigheten till byos (Bring Your Own Storage) kan du inte visa, skapa, redigera eller ta bort filer. För att återuppta din åtkomst måste du ta bort den aktuella lagringen och konfigurera om BYOS i Azure-portalen. Mer information om hur du konfigurerar BYOS finns i Montera Azure Storage som en lokal resurs i App Service.

När du har konfigurerat BYOS-behörigheten måste du konfigurera anonym offentlig läsåtkomst för relaterade containrar och blobar. Annars är blobdata inte tillgängliga för offentlig åtkomst och lexikonfilen i bloben är otillgänglig. Som standard inaktiveras en containers offentliga åtkomstinställning. Om du vill ge anonyma användare läsåtkomst till en container och dess blobar anger du först Tillåt offentlig blobåtkomst till Aktiverad för att tillåta offentlig åtkomst för lagringskontot och anger sedan containerns offentliga åtkomstnivå (med namnet acc-public-files) (endast anonym läsåtkomst för blobar). Mer information om hur du konfigurerar anonym offentlig läsåtkomst finns i Konfigurera anonym offentlig läsåtkomst för containrar och blobar.

Lägga till eller ta bort användare av skapande av ljudinnehåll

Om fler än en användare vill använda skapande av ljudinnehåll kan du ge dem åtkomst till Azure-prenumerationen och Speech-resursen. Om du lägger till användare i en Azure-prenumeration kan de komma åt alla resurser under Azure-prenumerationen. Men om du bara lägger till användare i en Speech-resurs har de bara åtkomst till Speech-resursen och inte till andra resurser under den här Azure-prenumerationen. Användare med åtkomst till Speech-resursen kan använda verktyget Skapa ljudinnehåll.

De användare som du beviljar åtkomst till behöver konfigurera ett Microsoft-konto. Om de inte har ett Microsoft-konto kan de skapa ett på bara några minuter. De kan använda sin befintliga e-post och länka den till ett Microsoft-konto, eller så kan de skapa och använda en Outlook-e-postadress som ett Microsoft-konto.

Lägga till användare i en Speech-resurs

Gör följande om du vill lägga till användare i en Speech-resurs så att de kan använda skapande av ljudinnehåll:

I Azure-portalen, väljer du Alla tjänster.
Välj sedan Azure AI-tjänsterna och gå till din specifika Speech-resurs.

Kommentar

Du kan också konfigurera Azure RBAC för hela resursgrupper, prenumerationer eller hanteringsgrupper. Gör detta genom att välja önskad omfångsnivå och sedan navigera till önskat objekt (till exempel genom att välja Resursgrupper och sedan klicka vidare till önskad resursgrupp).
Välj Åtkomstkontroll (IAM) i det vänstra navigeringsfönstret.
Välj Lägg till ->Lägg till rolltilldelning.
På fliken Roll på nästa skärm väljer du en roll som du vill lägga till (i det här fallet Ägare).
På fliken Medlemmar anger du en användares e-postadress och väljer användarens namn i katalogen. E-postadressen måste vara länkad till ett Microsoft-konto som är betrott av Microsoft Entra-ID. Användare kan enkelt registrera sig för ett Microsoft-konto med hjälp av sin personliga e-postadress.
På fliken Granska + tilldela väljer du Granska + tilldela för att tilldela rollen.

Här är vad som händer härnäst:

En e-postinbjudan skickas automatiskt till användarna. De kan acceptera det genom att välja Acceptera inbjudan>Acceptera för att ansluta till Azure i sin e-post. De omdirigeras sedan till Azure-portalen. De behöver inte vidta ytterligare åtgärder i Azure-portalen. Efter en liten stund tilldelas användarna rollen i resursomfånget Tal, vilket ger dem åtkomst till den här Speech-resursen. Om användarna inte får e-postinbjudan kan du söka efter deras konto under Rolltilldelningar och gå in i deras profil. Leta efter Identitetsinbjudan>accepterad och välj (hantera) för att skicka e-postinbjudan igen. Du kan också kopiera och skicka inbjudningslänken till dem.

Användare besöker eller uppdaterar produktsidan för att skapa ljudinnehåll och loggar in med sitt Microsoft-konto. De väljer Block för att skapa ljudinnehåll bland alla talprodukter. De väljer Speech-resursen i popup-fönstret eller i inställningarna längst upp till höger.

Om de inte hittar den tillgängliga Speech-resursen kan de kontrollera att de är i rätt katalog. För att göra det väljer de kontoprofilen längst upp till höger och väljer sedan Växla bredvid Aktuell katalog. Om det finns fler än en katalog tillgänglig innebär det att de har åtkomst till flera kataloger. De kan växla till olika kataloger och gå till Inställningar för att se om rätt Speech-resurs är tillgänglig.

Användare som är i samma Speech-resurs ser varandras arbete i verktyget Skapa ljudinnehåll. Om du vill att varje enskild användare ska ha en unik och privat arbetsplats i skapande av ljudinnehåll skapar du en ny Speech-resurs för varje användare och ger varje användare unik åtkomst till Tal-resursen.

Ta bort användare från en Speech-resurs

Sök efter Azure AI-tjänster i Azure-portalen och välj den Speech-resurs som du vill ta bort användare från.
Välj Åtkomstkontroll (IAM) och välj sedan fliken Rolltilldelningar för att visa alla rolltilldelningar för den här Speech-resursen.
Välj de användare som du vill ta bort, välj Ta bort och välj sedan OK.

Gör det möjligt för användare att bevilja åtkomst till andra

Om du vill tillåta att en användare beviljar åtkomst till andra användare måste du tilldela dem ägarrollen för Speech-resursen och ange användaren som Azure-katalogläsare.

Lägg till användaren som ägare av Speech-resursen. Mer information finns i Lägga till användare i en Speech-resurs.
I Azure-portalen väljer du den komprimerade menyn längst upp till vänster, väljer Microsoft Entra-ID och sedan Användare.
Sök efter användarens Microsoft-konto, gå till deras informationssida och välj sedan Tilldelade roller.
Välj Lägg till tilldelningar>Katalogläsare. Om knappen Lägg till tilldelningar inte är tillgänglig innebär det att du inte har åtkomst. Endast den globala administratören för den här katalogen kan lägga till tilldelningar till användare.

Talsyntes med verktyget För att skapa ljudinnehåll