OpenAI metinden konuşma seslerine nelerdir?

Makale
04/25/2024

Azure AI Konuşma sesleri gibi OpenAI metni de konuşma seslerine yazılı metni doğal sesli sese dönüştürmek için yüksek kaliteli konuşma sentezi sağlar. Bu, çevreleyici ve etkileşimli kullanıcı deneyimleri için çok çeşitli olanakların kilidini açar.

OpenAI metinden konuşma seslerine iki model çeşidi aracılığıyla kullanılabilir: Neural ve NeuralHD.

Neural: En düşük gecikme süresine sahip ancak değerinden NeuralHDdaha düşük kaliteye sahip gerçek zamanlı kullanım örnekleri için iyileştirilmiştir.
NeuralHD: Kalite için iyileştirilmiştir.

Azure OpenAI Studio ve Speech Studio'da OpenAI seslerinin tanıtımı için bu tanıtım videosunu görüntüleyin.

Azure AI hizmetlerinde konuşma seslerine metin ekleme

Şunu sorabilirsiniz: Konuşma sesi için OpenAI metni kullanmak istersem, bunu Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?

Her ses modeli, özel gereksinimlerinize en uygun olanı seçmenize olanak sağlayan farklı özellikler ve özellikler sunar. Azure AI hizmetlerinde kullanılabilir metin okuma sesleri arasındaki seçenekleri ve farkları anlamak istiyorsunuz.

Azure AI hizmetlerinde aşağıdaki metinden konuşma seslerine seçim yapabilirsiniz:

Azure OpenAI Hizmeti'nde openAI metniyle konuşma seslerine geçiş. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
Azure AI Konuşma'da konuşma seslerine openAI metni. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
Azure AI Konuşma tanıma hizmeti metni ile konuşma seslerine. Onlarca bölgede kullanılabilir. Bölge listesine bakın.

Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla konuşma seslerine OpenAI metni mi?

Konuşma seslerinde OpenAI metni kullanmak istiyorsanız, bunları Azure OpenAI veya Azure AI Konuşma aracılığıyla kullanmayı seçebilirsiniz. Her iki durumda da konuşma sentezi sonucu aynıdır.

Aşağıda, OpenAI metni ile Azure OpenAI Hizmeti'ndeki konuşma sesleri arasındaki özelliklerin ve Azure AI Konuşma'daki OpenAI metninin konuşma sesleriyle karşılaştırmasını bulabilirsiniz.

Özellik	Azure OpenAI Hizmeti (OpenAI sesleri)	Azure AI Konuşma (OpenAI sesleri)	Azure AI Konuşma sesleri
Bölge	Orta Kuzey ABD, Orta İsveç	Orta Kuzey ABD, Orta İsveç	Onlarca bölgede kullanılabilir. Bölge listesine bakın.
Ses çeşitliliği	6	6	400'den fazla
Çok dilli ses numarası	6	6	14
Maksimum çok dilli dil kapsamı	57	57	77
Konuşma Sentezi biçimlendirme dili (SSML) desteği	Desteklenmez	SSML öğelerinin bir alt kümesi için destek.	Azure AI Konuşmasında tam SSML kümesi desteği.
Geliştirme seçenekleri	REST API	Konuşma SDK'sı, Konuşma CLI'sı, REST API	Konuşma SDK'sı, Konuşma CLI'sı, REST API
Dağıtım seçeneği	Yalnızca bulut	Yalnızca bulut	Bulut, tümleşik, hibrit ve kapsayıcılar.
Gerçek zamanlı veya toplu sentez	Gerçek zamanlı	Gerçek zamanlı ve toplu sentez	Gerçek zamanlı ve toplu sentez
Gecikme süresi	500 ms'den büyük	500 ms'den büyük	300 ms'den az
Sentezlenmiş sesin örnek hızı	24 kHz	8, 16, 24 ve 48 kHz	8, 16, 24 ve 48 kHz
Konuşma çıkışı ses biçimi	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Azure AI Konuşma'da OpenAI sesleriyle kullanılamayan ek özellikler ve özellikler vardır. Örneğin:

Azure AI Konuşma'da OpenAI metninden konuşma seslerine yalnızca SSML öğelerinin bir alt kümesini destekler. Azure AI Konuşma sesleri, tüm SSML öğelerini destekler.
Azure AI Konuşma, sözcük sınırı olaylarını destekler. OpenAI sesleri sözcük sınırı olaylarını desteklemez.

Azure AI Konuşmasında OpenAI metni ile konuşma seslerine desteklenen SSML öğeleri

Giriş metniyle Konuşma Sentezi İşaretlemeyi Dili (SSML), metinden konuşmaya çıkışın yapısını, içeriğini ve diğer özelliklerini belirler. Örneğin, SSML kullanarak bir paragraf, tümce, kesme veya duraklama ya da sessizlik tanımlayabilirsiniz. Metni yer işareti veya viseme gibi daha sonra uygulamanız tarafından işlenebilen olay etiketleriyle kaydırabilirsiniz.

Aşağıdaki tabloda, OpenAI metni tarafından desteklenen Konuşma Sentezi İşaretlemeyi Dili (SSML) öğeleri Azure AI konuşmasında konuşma seslerine özetlenmiştir. OpenAI sesleri için yalnızca aşağıdaki SSML etiketleri alt kümesi desteklenir. Daha fazla bilgi için bkz . SSML belge yapısı ve olayları .

SSML öğe adı	Açıklama
`<speak>`	Konuşulacak içeriğin tamamını içine alır. SSML belgesinin kök öğesidir.
`<voice>`	Metinden konuşmaya çıkışı için kullanılan sesi belirtir.
`<sub>`	Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir.
`<say-as>`	Öğenin metninin sayı veya tarih gibi içerik türünü gösterir. `interpret-as` dışında bu öğe `interpret-as="name"`için tüm özellik değerleri desteklenir. Örneğin desteklenir `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` , ancak `<say-as interpret-as="name">ED</say-as>` desteklenmez. Daha fazla bilgi için bkz . SSML ile söyleniş.
`<s>`	Cümleleri belirtir.
`<lang>`	Sinir sesinin konuşmasını istediğiniz dil için varsayılan yerel ayarı gösterir.
`<break>`	Sözcükler arasındaki kesme veya duraklamaların varsayılan davranışını geçersiz kılmak için kullanın.

Share via

OpenAI metinden konuşma seslerine nelerdir?

Azure AI hizmetlerinde konuşma seslerine metin ekleme

Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla konuşma seslerine OpenAI metni mi?

Azure AI Konuşmasında OpenAI metni ile konuşma seslerine desteklenen SSML öğeleri

Sonraki adımlar

Ek kaynaklar