SSML ile sesi ve sesi özelleştirme

Makale
01/22/2024

Konuşma çıkışınız için konuşma sesi, dil, ad, stil ve rolü belirtmek için Konuşma Sentezi Biçimlendirme Dili'ni (SSML) kullanabilirsiniz. Ayrıca tek bir SSML belgesinde birden çok ses kullanabilir ve vurgu, konuşma hızı, perde ve ses düzeyini ayarlayabilirsiniz. Buna ek olarak, SSML ses efekti veya müzik notu gibi önceden kaydedilmiş ses ekleme özelliğine sahiptir.

Makalede ses ve ses belirtmek için SSML öğelerinin nasıl kullanılacağı gösterilmektedir. SSML söz dizimi hakkında daha fazla bilgi için bkz . SSML belge yapısı ve olayları.

Ses öğelerini kullanma

Her SSML konuşma öğesi içinde en az bir voice öğe belirtilmelidir. Bu öğe, metin okuma için kullanılan sesi belirler.

Tek bir SSML belgesine birden çok voice öğe ekleyebilirsiniz. Her voice öğe farklı bir ses belirtebilir. Aynı sesi, cümleler arasındaki sessizlik süresini değiştirdiğiniz durumlar gibi farklı ayarlarla birden çok kez de kullanabilirsiniz.

Aşağıdaki tabloda öğenin özniteliklerinin voice kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`name`	Metinden konuşmaya çıkış için kullanılan ses. Desteklenen önceden oluşturulmuş seslerin tam listesi için bkz . Dil desteği.	Zorunlu
`effect`	Cihazlarda belirli senaryolar için sentezlenmiş konuşma çıkışının kalitesini iyileştirmek için kullanılan ses efekti işlemcisi. Üretim ortamlarındaki bazı senaryolarda, bazı cihazlarda kayıttan yürütme bozulması nedeniyle işitsel deneyim düşürülebilir. Örneğin, bir araba hoparlöründen sentezlenen konuşma, konuşmacı yanıtı, oda yankısı ve arka plan gürültüsü gibi çevresel faktörlerden dolayı donuk ve boğuk gelebilir. Yolcunun daha net bir şekilde duymak için sesi açması gerekebilir. Böyle bir senaryoda el ile gerçekleştirilen işlemleri önlemek için ses efekti işlemcisi, kayıttan yürütmenin bozulmasını telafi ederek sesi daha net hale getirebilir. Aşağıdaki değerler desteklenir: `eq_car` – Arabalarda, otobüslerde ve diğer kapalı otomobillerde yüksek kaliteli konuşma sağlarken işitsel deneyimi iyileştirin. `eq_telecomhp8k` – Telekom veya telefon senaryolarında dar bant konuşma için işitsel deneyimi iyileştirin. 8 kHz örnekleme hızı kullanmanız gerekir. Örnek hızı 8 kHz değilse, çıkış konuşmasının işitsel kalitesi iyileştirilmemiştir. Değer eksik veya geçersizse, bu öznitelik yoksayılır ve hiçbir etki uygulanmaz.	İsteğe bağlı

Sesli örnekler

öğesinin öznitelikleri voice için desteklenen değerler hakkında bilgi için bkz . Ses öğelerini kullanma.

Tek sesli örnek

Bu örnekte ses kullanılır en-US-AvaMultilingualNeural .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Birden çok ses örneği

öğesinde speak , metinden konuşmaya çıkışı için birden çok ses belirtebilirsiniz. Bu sesler farklı dillerde olabilir. Her ses için metnin bir voice öğeye sarmalanması gerekir.

Bu örnek ve en-US-AndrewMultilingualNeural sesleri arasında en-US-AvaMultilingualNeural geçiş yapabilir. Nöral çok dilli sesler, giriş metnine göre farklı diller konuşabilir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Özel nöral ses örneği

Özel sinir sesinizi kullanmak için SSML'de ses adı olarak model adını belirtin.

Bu örnekte my-custom-voice adlı özel bir ses kullanılır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Ses efekti örneği

özniteliğini effect , otomobil ve telekomünikasyon gibi senaryolar için işitsel deneyimi iyileştirmek için kullanırsınız. Aşağıdaki SSML örneği, araç senaryolarındaki yapılandırma ile özniteliğini kullanır effect .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Konuşma stillerini ve rollerini kullanma

Sinir sesleri varsayılan olarak nötr konuşma tarzına sahiptir. Konuşma stilini, stil derecesini ve rolü cümle düzeyinde ayarlayabilirsiniz.

Not

Konuşma tanıma hizmeti, ses stilleri ve roller belgelerinde açıklandığı gibi sinir seslerinin bir alt kümesi için stilleri, stil derecesini ve rolleri destekler. Her ses için desteklenen stilleri ve rolleri belirlemek için liste sesleri API'sini ve ses içeriği oluşturma web uygulamasını da kullanabilirsiniz.

Aşağıdaki tabloda öğenin özniteliklerinin mstts:express-as kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`style`	Sese özgü konuşma stili. Neşelilik, empati ve sakinlik gibi duyguları ifade edebilirsiniz. Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz. Stil değeri eksik veya geçersizse, öğenin tamamı `mstts:express-as` yoksayılır ve hizmet varsayılan nötr konuşmayı kullanır. Özel nöral ses stilleri için özel sinir sesi stili örneğine bakın.	Zorunlu
`styledegree`	Konuşma stilinin yoğunluğu. Konuşmayı daha etkileyici veya alt düzey yapmak için daha güçlü veya daha yumuşak bir stil belirtebilirsiniz. Kabul edilen değerler aralığı şunlardır: `0.012` dahil. Varsayılan değer olan `1`, önceden tanımlanmış stil yoğunluğu anlamına gelir. En düşük birim olan `0.01`, hedef stil için hafif bir eğilime neden olur. değeri `2` , varsayılan stil yoğunluğunun iki katına çıkar. Stil derecesi eksikse veya sesinizde desteklenmiyorsa, bu öznitelik yoksayılır.	İsteğe bağlı
`role`	Konuşan rol oyunu. Ses farklı bir yaşı ve cinsiyeti taklit edebilir, ancak ses adı değiştirilmez. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı dişi sesi taklit etmek için değiştirebilir, ancak ses adı değiştirilmez. Rol eksikse veya sesinizde desteklenmiyorsa, bu öznitelik yoksayılır.	İsteğe bağlı

Aşağıdaki tabloda desteklenen style her öznitelik açıklanmaktadır:

Stil	Açıklama
`style="advertisement_upbeat"`	Bir ürünü veya hizmeti tanıtmak için heyecan verici ve yüksek enerji tonunu ifade eder.
`style="affectionate"`	Daha yüksek ses ve ses enerjisi ile sıcak ve sevgi dolu bir tonu ifade eder. Konuşmacı dinleyicinin dikkatini çekecek durumda. Konuşmacının kişiliği genellikle doğadan çok daha fazladır.
`style="angry"`	Kızgın ve sinir bozucu bir tonu ifade eder.
`style="assistant"`	Dijital yardımcılar için sıcak ve rahat bir ton ifade eder.
`style="calm"`	Konuşurken havalı, toplanmış ve birleştirilmiş bir tutum ifade eder. Ton, ses perdesi ve prosody, diğer konuşma türlerine kıyasla daha tekdüzendir.
`style="chat"`	Rahat ve rahat bir ton ifade eder.
`style="cheerful"`	Olumlu ve mutlu bir tonu ifade eder.
`style="customerservice"`	Müşteri desteği için kolay ve yararlı bir ton ifade eder.
`style="depressed"`	Daha düşük perde ve enerji ile melankolik ve despondent bir ton ifade eder.
`style="disgruntled"`	Küçümser ve şikayetçi bir tonu ifade eder. Bu duygunun konuşması memnuniyetsizlik ve küçümseme gösterir.
`style="documentary-narration"`	Belgeselleri, belgeselleri, uzman yorumlarını ve benzer içerikleri dublaj için uygun olan rahat, ilgi çekici ve bilgilendirici bir stilde anlatımlar.
`style="embarrassed"`	Konuşmacı rahatsız hissettiğinde belirsiz ve tereddütlü bir tonu ifade eder.
`style="empathetic"`	Önem ve anlayış duygusunu ifade eder.
`style="envious"`	Başka birinin sahip olduğu bir şeyi arzu ettiğinizde hayranlık tonlarını ifade eder.
`style="excited"`	İyi ve umut dolu bir tonu ifade eder. Kulağa harika bir şey oluyor gibi geliyor ve konuşmacı bundan memnun.
`style="fearful"`	Daha yüksek ses perdesi, daha yüksek ses enerjisi ve daha hızlı hız ile korku ve sinir tonlarını ifade eder. Konuşmacı gergin ve huzursuz durumda.
`style="friendly"`	Hoş, davetkar ve sıcak bir ton ifade eder. Kulağa samimi ve ilgili geliyor.
`style="gentle"`	Düşük ses perdesi ve ses enerjisiyle hafif, kibar ve hoş bir tonu ifade eder.
`style="hopeful"`	Sıcak ve içten bir ton ifade eder. Hoparlöre iyi bir şey olacakmış gibi geliyor.
`style="lyrical"`	Duyguları melodik ve duygusal bir şekilde ifade eder.
`style="narration-professional"`	İçerik okuma için profesyonel ve nesnel bir ton ifade eder.
`style="narration-relaxed"`	İçerik okuma için rahatlatıcı ve melodik bir ton ifade eder.
`style="newscast"`	Haber anlatımı için resmi ve profesyonel bir ton ifade eder.
`style="newscast-casual"`	Genel haber sunumu için çok yönlü ve gündelik bir ton ifade eder.
`style="newscast-formal"`	Haber teslimi için resmi, güvenilir ve yetkili bir tonu ifade eder.
`style="poetry-reading"`	Şiir okurken duygusal ve ritmik bir tonu ifade eder.
`style="sad"`	Kederli bir tonu ifade eder.
`style="serious"`	Katı ve komutlu bir tonu ifade eder. Hoparlör genellikle sağlam tempo ile daha sert ve çok daha az rahat ses çıkarır.
`style="shouting"`	Sesi uzak veya başka bir yerdeymiş gibi görünen bir tonu ifade eder ve net bir şekilde duyulmak için çaba gösterir.
`style="sports_commentary"`	Bir spor etkinliğini yayınlamak için rahat ve ilgi çekici bir tonu ifade eder.
`style="sports_commentary_excited"`	Bir spor etkinliğinde heyecan verici anları yayınlamak için yoğun ve enerjik bir ton ifade eder.
`style="whispering"`	Sessiz ve nazik bir ses çıkarmaya çalışan yumuşak bir tonu ifade eder.
`style="terrified"`	Daha hızlı ve titrek bir ses ile korkmuş bir tonu ifade eder. Konuşmacı sabit ve çılgın bir durumda gibi görünüyor.
`style="unfriendly"`	Soğuk ve kayıtsız bir tonu ifade eder.

Aşağıdaki tabloda desteklenen role her özniteliğin açıklamaları yer alır:

Rol	Açıklama
`role="Girl"`	Ses bir kızı taklit eder.
`role="Boy"`	Ses bir çocuğu taklit eder.
`role="YoungAdultFemale"`	Ses genç bir yetişkin dişiyi taklit eder.
`role="YoungAdultMale"`	Ses genç bir yetişkin erkeği taklit eder.
`role="OlderAdultFemale"`	Ses yaşlı bir yetişkin dişiyi taklit eder.
`role="OlderAdultMale"`	Ses yaşlı bir yetişkin erkeği taklit eder.
`role="SeniorFemale"`	Ses, yaşlı bir kadını taklit eder.
`role="SeniorMale"`	Ses kıdemli bir erkeği taklit eder.

mstts express-as örnekleri

öğesinin öznitelikleri mstts:express-as için desteklenen değerler hakkında bilgi için bkz . Konuşma stillerini ve rollerini kullanma.

Stil ve derece örneği

Öğesini, neşelilik, empati ve sakinlik gibi duyguları ifade etmek için kullanırsınız mstts:express-as . Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz.

Aşağıdaki SSML örneği, öğesini stil derecesiyle sad2kullanır<mstts:express-as>.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧，路上一定要注意安全，早去早回。
        </mstts:express-as>
    </voice>
</speak>

Rol örneği

Konuşma stillerini ve stil derecesini ayarlamanın dışında, ses farklı bir yaşı ve cinsiyeti role taklit edecek şekilde parametresini de ayarlayabilirsiniz. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı kadın sesini taklit etmek için değiştirebilir, ancak ses adı değiştirilmez.

Bu SSML kod parçacığı, özniteliğinin role için rol oynama özelliğini değiştirmek için zh-CN-XiaomoNeuralnasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来，问道：
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的，怎么过来的？”
        </mstts:express-as>
        父亲放下手提包，说：
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的，路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Özel nöral ses stili örneği

Özel sinir sesinizi , sadve whisperinggibi bazı önceden ayarlanmış stiller ile konuşabilecek şekilde cheerfuleğitebilirsiniz. Ayrıca, eğitim verileriniz tarafından belirlenen özel bir stilde konuşmak için özel bir sinir sesi eğitebilirsiniz. SSML'de özel nöral ses stilinizi kullanmak için, Speech Studio'da daha önce girdiğiniz stil adını belirtin.

Bu örnekte my-custom-voice adlı özel bir ses kullanılır. Özel ses, önceden ayarlanmış stil ve stil derecesiyle cheerful2ve ardından my-custom-style ve stil derecesi 0.01adlı özel bir stille konuşur.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Konuşmacı profili kimliği

kişisel ses özelliğini belirtmek speakerProfileId için öğesini kullanırsınızmstts:ttsembedding. Kişisel ses, kendi sesinizle veya müşterinizin sesiyle eğitilen özel bir sinir sesidir. Daha fazla bilgi için bkz . Kişisel ses oluşturma.

Aşağıdaki SSML örneği, bir ses adı ve konuşmacı profili kimliği ile öğesini kullanır <mstts:ttsembedding> .

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起，我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak>

Konuşma dillerini ayarlama

Varsayılan olarak, çok dilli sesler giriş metninin dilini otomatik olarak algılayabilir ve SSML kullanmadan giriş metninin varsayılan yerel ayarında konuşabilir. İsteğe bağlı olarak, İngiliz İngilizcesi <lang xml:lang> gibi en-GB tercih edilen vurguyu ayarlamak üzere bu seslerin konuşma dilini ayarlamak için öğesini kullanabilirsiniz. Konuşma dilini hem cümle hem de sözcük düzeyinde ayarlayabilirsiniz. Çok dilli ses için desteklenen diller hakkında bilgi için, söz dizimi ve öznitelik tanımlarını gösteren <lang> bir tablo için bkz. Lang öğesiyle çok dilli sesler.

Aşağıdaki tabloda öğenin özniteliklerinin <lang xml:lang> kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`xml:lang`	Sinir sesinin konuşmasını istediğiniz dil.	Sinir sesinin konuşma dilini ayarlamak için gereklidir. kullanıyorsanız `lang xml:lang`, yerel ayar sağlanmalıdır.

Not

<lang xml:lang> öğesi ve break öğeleriyle prosody uyumsuz. Bu öğede duraklama ve eğim, dağılım, hız veya ses düzeyi gibi prosody ayarlarını yapamazsınız.

Lang öğesiyle çok dilli sesler

Aşağıdaki örnek tabloda gösterildiği gibi Konuşma hizmetinin her sinir sesi için hangi konuşma dillerini desteklediğini belirlemek için çok dilli sesler bölümünü kullanın. Ses, giriş metninin dilini konuşmazsa Konuşma hizmeti sentezlenmiş ses çıkışı vermez.

Ses	Desteklenen dil numarası	Desteklenen diller	Her dil için otomatik algılanan varsayılan yerel ayar
`en-US-AndrewMultilingualNeural`¹ (Erkek) `en-US-AvaMultilingualNeural`¹ (Kadın) `en-US-BrianMultilingualNeural`¹ (Erkek) `en-US-EmmaMultilingualNeural`¹ (Kadın)	77	Afrika dili, Arnavutça, Amharca, Arapça, Ermenice, Azerbaycan, Bahasa Endonezyacası, Bangla, Bask, Bengalce, Boşnakça, Bulgarca, Birmanca, Katalanca, Çince Kantonca, Çince Mandarin, Çince Tayvanlı, Hırvatça, Çekçe, Danca, Felemenkçe, İngilizce, Estonca, Filipinli, Fince, Fransızca, Galiçyaca, Gürcüce, Almanca, Yunanca, İbranice, Hintçe, Macarca, İzlandaca, İrlandaca, İtalyanca, Japonca, Javanez, Kannada, Kazakça, Khmer, Korece, Lao, Letonca, Litvanca, Makedonca, Malayca, Malayalam, Maltese, Moğolca, Nepalce, Norveççe Bokmål, Peşto, Farsça, Lehçe, Portekizce, Rumence, Rusça, Sırpça, Sinhala, Slovakça, Sloven, Somali, İspanyolca, Sundanese, Svahili, İsveççe, Tamilce, Telugu, Tayca, Türkçe, Ukraynaca, Urduca, Özbek, Vietnamca, Galce, Zululu	`af-ZA`, `am-ET`, `ar-EG`, `az-AZ`, `bg-BG`, `bn-BD`, `bn-IN`, `bs-BA`, , , `ca-ES`, , `de-DE`, `lv-LVsl-SIsk-SKsi-LKru-RUso-SOro-ROpt-BRps-AFsq-ALnl-NLne-NPnb-NOmy-MMmt-MTms-MYmn-MNid-IDhy-AMhu-HUhr-HRis-ISit-ITsv-SElt-LTmk-MKml-INkn-INhi-INkm-KHlo-LAsr-RSkk-KZjv-IDpl-PLko-KRka-GEsu-IDja-JPcs-CZcy-GBda-DKel-GRen-USes-ESet-EEeu-ESfa-IRfi-FIfil-PHfr-FRga-IEgl-EShe-ILsw-KE`, `ta-IN`, `te-IN`, , `th-TH`, `tr-TR`, `uk-UA`, , `ur-PK`, `uz-UZ`, `vi-VNzh-CN`, `zh-HK`, `zu-ZAzh-TW`.

¹ Bunlar Azure AI Konuşmasında sinirsel çok dilli seslerdir. Tüm çok dilli sesler, SSML kullanmadan giriş metninin varsayılan yerel ayarında dilde konuşabilir. Ancak, İngilizce için İngiliz vurgusu (en-GB) gibi tercih edilen vurguyu ayarlamak üzere her dilin konuşma vurgusunu ayarlamak için öğesini kullanmaya <lang xml:lang> devam edebilirsiniz. Her ses için birincil yerel ayar, adında önek ile gösterilir; örneğin, ses en-US-AndrewMultilingualNeural, birincil yerel ayarıdır en-US. SSML aracılığıyla desteklenen yerel ayarların tam listesini denetleyin.

Not

Çok dilli sesler , emphasis, silenceve subgibi belirli SSML öğelerini tam olarak breakdesteklemez.

Lang örnekleri

öğesinin öznitelikleri lang için desteklenen değerler hakkında bilgi için bkz . Konuşma dilini ayarlama.

Dilin başka bir yerde ayarlanıp ayarlanmayacağını öğesi içinde speak varsayılan dil olarak belirtmeniz en-US gerekir. Bu örnekte için en-US-AvaMultilingualNeural birincil dil şeklindedir en-US.

Bu SSML kod parçacığı, sinir sesiyle en-US-AvaMultilingualNeural konuşmak de-DE için nasıl kullanılacağını <lang xml:lang> gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

öğesinde speak , metin okuma çıkışı dahil olmak üzere en-US birden çok dil belirtebilirsiniz. Ayarlanan her dil için metnin dille eşleşmesi ve bir voice öğeye sarmalanması gerekir. Bu SSML kod parçacığı, konuşma dillerini es-MX, en-USve fr-FRolarak değiştirmek için nasıl kullanılacağını <lang xml:lang> gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Prozodiyi ayarlama

öğesini kullanarak prosody metinden konuşma çıkışına yönelik aralık, dağılım, aralık, hız ve hacim değişikliklerini belirtebilirsiniz. prosody öğesi metin ve şu öğeleri içerebilir: audio, break, p, phoneme, , prosody, say-as, subve s.

Prosodik öznitelik değerleri geniş bir aralıkta farklılık gösterebileceğinden, konuşma tanıyıcı atanan değerleri seçilen sesin gerçek prosodik değerlerinin ne olması gerektiğine ilişkin bir öneri olarak yorumlar. Metin okuma sınırları veya desteklenmeyen değerlerin yerini alır. Desteklenmeyen değerlere örnek olarak 1 MHz aralığı veya 120 hacim verilebilir.

Aşağıdaki tabloda öğenin özniteliklerinin prosody kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`contour`	Kontur, perdedeki değişiklikleri temsil eder. Bu değişiklikler, konuşma çıkışında belirtilen zaman konumlarında bir hedef dizisi olarak temsil edilir. Parametre çiftleri kümeleri her hedefi tanımlar. Örneğin: `<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">` Her parametre kümesindeki ilk değer, metin süresinin yüzdesi olarak aralık değişikliğinin konumunu belirtir. İkinci değer, pitch için göreli bir değer veya numaralandırma değeri kullanarak perdenin yükseltilmesi veya düşürülme miktarını belirtir (bkz `pitch`. ).	İsteğe bağlı
`pitch`	Metnin temel perdesini gösterir. Pitch değişiklikleri cümle düzeyinde uygulanabilir. Ses perdesi değişiklikleri özgün sesin 0,5 ile 1,5 katı içinde olmalıdır. Sunumu şu şekilde ifade edebilirsiniz: Mutlak değer: Bir sayı olarak ifade edilir ve ardından "Hz" (Hertz). Örneğin, `<prosody pitch="600Hz">some text</prosody>`. Göreli değer: Göreli sayı olarak: "+" veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından perdeyi değiştirmek için bir miktar belirten "Hz" veya "st" gelir. Örneğin: `<prosody pitch="+80Hz">some text</prosody>` veya `<prosody pitch="-2st">some text</prosody>`. "st" değeri, değişiklik biriminin standart diatonik ölçekte bir tonun (yarım adım) yarısı olan yarı ton olduğunu gösterir. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody pitch="50%">some text</prosody>` veya `<prosody pitch="-50%">some text</prosody>`. Sabit bir değer: x-low Iowa orta Yüksek x-high varsayılan	İsteğe bağlı
`range`	Metin için aralık aralığını temsil eden bir değer. öğesini açıklamak `pitch`için kullanılan aynı mutlak değerleri, göreli değerleri veya numaralandırma değerlerini kullanarak ifade `range` edebilirsiniz.	İsteğe bağlı
`rate`	Metnin konuşma hızını gösterir. Konuşma hızı sözcük veya cümle düzeyinde uygulanabilir. Hız değişiklikleri özgün sesin çarpımları `2` içinde `0.5` olmalıdır. Şunu ifade `rate` edebilirsiniz: Göreli değer: Göreli sayı olarak: Varsayılanın çarpanı işlevi gören bir sayı olarak ifade edilir. Örneğin, değerinin `1` özgün oranda hiçbir değişiklik olmaması gerekir. Değeri, `0.5` özgün oranın yarıya inilmesiyle sonuçlanır. değeri, `2` özgün oranın iki katıyla sonuçlanır. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody rate="50%">some text</prosody>` veya `<prosody rate="-50%">some text</prosody>`. Sabit bir değer: x yavaş yavaş orta hızlı x hızlı varsayılan	İsteğe bağlı
`volume`	Konuşma sesinin ses düzeyini gösterir. Birim değişiklikleri cümle düzeyinde uygulanabilir. Birimi şu şekilde ifade edebilirsiniz: Mutlak değer: gibi en sessizden en yüksek sese kadar `100.0`olan aralığında `0.0` bir sayı olarak `75`ifade edilir. Varsayılan değer şudur: `100.0`. Göreli değer: Göreli sayı olarak: Birimi değiştirmek için bir miktar belirten "+" veya "-" işaretinden önce gelen bir sayı olarak ifade edilir. Örnek olarak veya `-5.5`verilebilir`+10`. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody volume="50%">some text</prosody>` veya `<prosody volume="+3%">some text</prosody>`. Sabit bir değer: Sessiz x-soft Microsoft orta Yüksek sesle x-loud varsayılan	İsteğe bağlı

Prosody örnekleri

öğesinin öznitelikleri prosody için desteklenen değerler hakkında bilgi için bkz . Prosody'yi ayarlama.

Konuşma hızını değiştirme örneği

Bu SSML kod parçacığı, konuşma hızını varsayılan hızdan rate %30 daha yüksek olarak değiştirmek için özniteliğin nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Birim değiştirme örneği

Bu SSML kod parçacığı, özniteliğin volume birimi varsayılan birimden %20 daha büyük bir değere değiştirmek için nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Perdeyi değiştirme örneği

Bu SSML kod parçacığı, sesin yüksek perdede konuşabilmesi için özniteliğin nasıl pitch kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Dağılım dağılımını değiştirme örneği

Bu SSML kod parçacığı, özniteliğin contour dağılımı değiştirmek için nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Vurgu ayarlama

İsteğe bağlı emphasis öğesini kullanarak metne sözcük düzeyi stres ekleyebilir veya kaldırabilirsiniz. Bu öğe yalnızca metin ve şu öğeleri içerebilir: , , , , , phoneme, prosody, say-as, subve voice. langemphasisbreakaudio

Not

Sözcük düzeyinde vurgu ayarı yalnızca şu sinir sesleri için kullanılabilir: en-US-GuyNeural, en-US-DavisNeuralve en-US-JaneNeural.

Düşük aralıklı ve kısa süreli sözcükler için, perde fark edilecek kadar yükseltilmeyebilir.

Aşağıdaki tabloda öğenin öznitelikleri açıklanmaktadır emphasis :

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`level`	Uygulanacak vurgunun gücünü gösterir: `reduced` `none` `moderate` `strong` . Öznitelik belirtilmediğinde `level` varsayılan düzey şeklindedir `moderate`. Her öznitelikle ilgili ayrıntılar için bkz . vurgu öğesi.	İsteğe bağlı

Vurgu örnekleri

öğesinin öznitelikleri emphasis için desteklenen değerler hakkında bilgi için bkz . Vurguyu ayarlama.

Bu SSML kod parçacığı, "toplantılar" sözcüğüne emphasis orta düzeyde vurgu eklemek için öğesini nasıl kullanabileceğinizi gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Kayıtlı ses ekleme

audio öğesi isteğe bağlıdır. SSML belgesine önceden kaydedilmiş ses eklemek için bunu kullanabilirsiniz. Ses dosyası kullanılamıyor veya yürütülemez durumdaysa öğenin gövdesi audio düz metin veya konuşulan SSML işaretlemesi içerebilir. audio öğesi metin ve şu öğeleri de içerebilir: audio, break, p, s, , phoneme, prosody, say-asve sub.

SSML belgesine dahil olan tüm sesler şu gereksinimleri karşılamalıdır:

Ses dosyası geçerli *.mp3, *.wav, *.opus, *.ogg, *.flac veya *.wma dosyaları olmalıdır.
Tek bir yanıttaki tüm metin ve ses dosyalarının toplam süresi 600 saniyeyi aşamaz.
Ses, müşteriye özgü veya diğer hassas bilgileri içermemelidir.

Not

audio öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu sentez API'sini (Önizleme) kullanın.

Aşağıdaki tabloda öğenin özniteliklerinin audio kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`src`	Ses dosyasının URI konumu. Ses, İnternet'te erişilebilen bir HTTPS uç noktasında barındırılmalıdır. HTTPS gereklidir. Dosyayı barındıran etki alanı geçerli, güvenilir bir TLS/SSL sertifikası sunmalıdır. Gecikme süresini en aza indirmek için ses dosyasını metin okuma uç noktasıyla aynı Azure bölgesindeki Blob Depolama yerleştirmelisiniz.	Zorunlu

Ses örnekleri

öğesinin öznitelikleri audio için desteklenen değerler hakkında bilgi için bkz . Kayıtlı ses ekleme.

Bu SSML kod parçacığı, iki .wav dosyasından ses eklemek için özniteliğin nasıl kullanılacağını src gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Ses süresini ayarlama

Çıkış sesinin mstts:audioduration süresini ayarlamak için öğesini kullanın. Ses çıkışı tamamlanma zamanlamasını eşitlemeye yardımcı olması için bu öğeyi kullanın. Ses süresi, özgün sesin hızıyla 2 çarpımları arasında 0.5 azaltılabilir veya artırılabilir. Orijinal ses, başka bir hız ayarı olmayan sestir. Konuşma hızı, ayarlanan değere göre yavaşlar veya buna göre artırılır.

Ses süresi ayarı, kapsayan voice öğesi içindeki tüm giriş metnine uygulanır. Ses süresi ayarını yeniden sıfırlamak veya değiştirmek için, aynı sesle veya farklı bir sesle yeni voice bir öğe kullanmanız gerekir.

Aşağıdaki tabloda öğenin özniteliklerinin mstts:audioduration kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`value`	Çıkış sesinin istenen süresi gibi `2s`saniye cinsinden veya gibi `2000ms`milisaniye cinsinden. Bu değer, başka bir hız ayarı olmadan özgün sesin çarpımları içinde `0.52` olmalıdır. Örneğin, sesinizin istenen süresi ise `30s`özgün ses 15 ile 60 saniye arasında olmalıdır. Bu sınırların dışında bir değer ayarlarsanız, süre ilgili minimum veya maksimum kat değerine göre ayarlanır. İstediğiniz çıkış ses süresi göz önüne alındığında Konuşma tanıma hizmeti konuşma hızını buna göre ayarlar. Ses listesi API'sini `WordsPerMinute` kullanın ve kullandığınız sinir sesinin konuşma hızını öğrenmek için özniteliğini denetleyin. Yaklaşık özgün çıkış ses süresini almak için giriş metninizdeki sözcük sayısını özniteliğin `WordsPerMinute` değerine bölebilirsiniz. Ses süresini tahmini süreye en yakın şekilde ayarladığınızda çıkış sesi en doğal sestir.	Zorunlu

mstts ses süresi örnekleri

öğesinin öznitelikleri mstts:audioduration için desteklenen değerler hakkında bilgi için bkz . Ses süresini ayarlama.

Bu örnekte özgün ses yaklaşık 15 saniyedir. mstts:audioduration öğesi, ses süresini 20 saniye veya 20solarak ayarlamak için kullanılır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Arka plan sesi ekleme

SSML belgelerinize arka plan sesi eklemek veya ses dosyasını metin okuma ile karıştırmak için öğesini kullanabilirsiniz mstts:backgroundaudio . ile mstts:backgroundaudio, arka planda bir ses dosyasını döngüye alabilir, metnin başında konuşmada belirebilir ve metnin sonundan konuşmaya kadar kaybolabilirsiniz.

Sağlanan arka plan sesi, metin okumadan kısaysa veya soluksa döngüye başlar. Metin okumadan daha uzunsa, solma tamamlandığında durur.

SSML belgesi başına yalnızca bir arka plan ses dosyasına izin verilir. SSML belgenize daha fazla ses eklemek için öğenin içindeki voice etiketlerin arasını değiştirebilirsinizaudio.

Not

mstts:backgroundaudio öğesi tüm voice öğelerin önüne yerleştirilmelidir. Belirtilirse, öğenin ilk alt öğesi speak olmalıdır.

mstts:backgroundaudio öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu sentez API'sini (Önizleme) kullanın.

Aşağıdaki tabloda öğenin özniteliklerinin mstts:backgroundaudio kullanımı açıklanmaktadır:

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`src`	Arka plan ses dosyasının URI konumu.	Zorunlu
`volume`	Arka plan ses dosyasının ses düzeyi. Kabul edilen değerler: `0` dahil olmak üzere `100` . Varsayılan değer şudur: `1`.	İsteğe bağlı
`fadein`	Arka plan sesinin süresi milisaniye olarak kaybolur. Varsayılan değer, `0`belirmemeye eşdeğer olan değeridir. Kabul edilen değerler: `0` dahil olmak üzere `10000` .	İsteğe bağlı
`fadeout`	Arka plan sesinin süresi milisaniye cinsinden kaybolur. Varsayılan değer, `0`belirmemeye eşdeğer olan değeridir. Kabul edilen değerler: `0` dahil olmak üzere `10000` .	İsteğe bağlı

mstss backgroundaudio örnekleri

öğesinin öznitelikleri mstts:backgroundaudi için desteklenen değerler hakkında bilgi için bkz . Arka plan sesi ekleme.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Share via