Sinir metin okuma nedir?
Microsoft sinir metin okuma, bilgisayar seslerini kişilerin kayıtlarının neredeyse ayırt edilemez hale getirmek için derin sinir ağları kullanır. İnsan benzeri doğal Prosody ve sözcüklerin bir kısmını temizleyerek, AI sistemleriyle etkileşime geçerek sinir metin okuma, dinlemeyi önemli ölçüde azalmıştır.
Konuşma desenlerinin ve konuşulan dilde intoın desenleri, Prosody olarak adlandırılır. Geleneksel metin okuma sistemleri, bağımsız modeller tarafından yönetilen ayrı bir dil analizine ve akustik tahmin adımlarına Prosody 'yi ayırır. Bu, muffled, Buzzy Voice sensede oluşmasına neden olabilir. Microsoft sinir metin okuma özelliği, tek başına tahmini ve ses birleştirme aynı anda, konuşulan dile göre stres ve kullanım desenlerinin eşleşmesini ve konuşma birimlerini bir bilgisayar sesine birleştirerek, geleneksel metin okuma sistemlerinin sınırlarını aşmak için derin sinir ağlarını kullanır. Sonuç daha akıcı ve doğal bir sestir.
Bu genel bakışta, uygulamanızın, araçların veya cihazların metni insan benzeri sentezleştirilmiş konuşmaya dönüştürmesini sağlayan, metinden konuşmaya hizmetinin avantajları ve özellikleri hakkında bilgi edinebilirsiniz. İnsan benzeri sinir seslerini kullanın veya ürün veya marka için benzersiz özel bir ses oluşturun. Desteklenen seslerin, dillerin ve yerel ayarların tam listesi için bkz. desteklenen diller.
Bu belge aşağıdaki makale türlerini içerir:
- Hızlı başlangıçlarda, hizmette istek yapma konusunda size kılavuzluk eden başlangıç yönergeleri bulunur.
- Nasıl yapılır kılavuzlarında , hizmetin daha belirli veya özelleştirilmiş yollarla kullanılmasına ilişkin yönergeler bulunur.
- Kavramlar , hizmet işlevselliği ve özelliklerinin ayrıntılı açıklamalarını sağlar.
- Öğreticiler daha fazla iş çözümlerinde hizmeti bir bileşen olarak nasıl kullanacağınızı gösteren kılavuzlardır.
Not
Bing Konuşma, 15 Ekim 2019 tarihinde kullanımdan kaldırıldı. uygulamalarınız, araçlar veya ürünleriniz Bing Konuşma apı 'leri veya Özel Konuşma Tanıma kullanıyorsa, konuşma hizmetine geçiş yapmanıza yardımcı olacak kılavuzlar oluşturduk.
Temel Özellikler
Konuşma birleştirme- Platform sinir sesleri veya özel sinir seslerinikullanarak metin okumayı dönüştürmek için konuşma SDK 'sını veya REST API kullanın.
Zaman uyumsuz birleştirme uzun seslidir-metin okuma dosyalarını 10 dakikadan uzun zaman uyumsuz bir şekilde birleştirmek için uzun ses API 'sini kullanın (örneğin, ses defterleri veya seminerler). Konuşma SDK 'Sı veya konuşmadan metne REST API kullanarak senkinden farklı olarak, yanıtlar gerçek zamanlı olarak döndürülmez. Beklentiler, isteklerin zaman uyumsuz olarak gönderilmesi, yanıtların yoklandığının ve hizmetten kullanıma hazır hale getirilme sesinin indirilmesinden kaynaklandır.
Platform sinir sesleri-derin sinir ağları, geleneksel konuşma senillerinin sınırlarını aşmak için kullanılır. Prosody tahmini ve ses birleştirmesinin eşzamanlı olarak gerçekleştirilmesi, daha akıcı ve doğal bir çıkış ile sonuçlanır. Sinir sesleri, chatbots ve ses yardımcılarıyla daha doğal ve etkileyici bir şekilde etkileşim kurmak, e-kitaplar gibi dijital metinleri audiobooks 'a dönüştürmek ve oto içi gezinti sistemlerini geliştirmek için kullanılabilir. İnsan benzeri doğal Prosody ve sözcüklerin bir kısmını temizleyerek, AI sistemleriyle etkileşime geçerek sinir seslileri büyük ölçüde dinlemeyi azaltır. Platform sinir sesleriniz tam listesi için bkz. desteklenen diller.
SSML ile (SSML), metin okuma çıktılarını özelleştirmek için kullanılan XML tabanlı bir biçimlendirme dilidir. SSML ile yalnızca karakter ayarlama, duraklama ekleme, telaffuz, konuşma hızını değiştirme, Ses ayarlama ve tek bir belgeye birden çok ses özniteliği oluşturma, aynı zamanda kendi lexsimgelerinizi tanımlama veya farklı konuşma stillerine geçiş yapabilirsiniz. Çok dilli seslerle, SSML aracılığıyla konuşma dillerini de ayarlayabilirsiniz. Senaryonuza yönelik ses çıkışını ince ayar yapmak için SSML 'yi nasıl kullanacağınızı öğrenin.
Visemes- visemes , belirli bir phoneme oluştururken LIP 'ler, Jaw ve dil düzeyi dahil olmak üzere gözlemlenen konuşmayla ilgili önemli pozlardır. Visemes, sesler ve phonemes ile güçlü bir bağıntı vardır. Konuşma SDK 'sında viseme olaylarını kullanarak, LIP 'yi okuma, eğitim, eğlence ve müşteri hizmetleri gibi yüzlere animasyon eklemek için kullanılabilecek yüz animasyon verileri oluşturabilirsiniz. Viseme Şu anda yalnızca
en-USİngilizce (Birleşik Devletler) sinir sesdedesteklenir.
başlarken
Metinden konuşmaya başlamak için hızlı başlangıca bakın. Metinden konuşmaya hizmeti, konuşma SDK 'sı, REST APIve konuşma CLI aracılığıyla kullanılabilir
Örnek kod
Metinden konuşmaya yönelik örnek kod GitHub kullanılabilir. Bu örnekler, en popüler programlama dillerinde metinden konuşmaya dönüştürmeyi kapsar.
Özelleştirme
Sinir seslerinizin yanı sıra, ürün veya marka için özel sesler oluşturabilir ve bunları hassas bir şekilde ayarlayabilirsiniz. Kullanmaya başlamak her şey için çok sayıda ses dosyası ve ilişkili dökümlerdir. Daha fazla bilgi için bkz. Custom sinir Voice ile çalışmaya başlama
Fiyatlandırma notunun
Metin okuma hizmeti kullanılırken, noktalama, noktalama dahil olmak üzere her bir karakter için faturalandırılırsınız. SSML belgesinin kendisi faturalanabilir olsa da, metnin, alfabesine ve sıklık gibi bir şekilde konuşmaya dönüştürülmesini ayarlamak için kullanılan isteğe bağlı öğeler faturalanabilir karakter olarak sayılır. Faturalandırılabilir nelerin listesi aşağıda verilmiştir:
- İsteğin SSML gövdesinde metin okuma hizmetine geçilen metin
- SSML biçimindeki istek gövdesinin metin alanı içindeki
<speak>ve etiketleri hariç tüm biçimlendirme<voice> - Harfler, noktalama, boşluk, sekme, biçimlendirme ve tüm beyaz boşluk karakterleri
- Unicode 'da tanımlanan her kod noktası
Ayrıntılı bilgi için bkz. fiyatlandırma.
Önemli
Her Çince, Japonca ve Kore dili karakteri faturalandırma için iki karakter olarak sayılır.
Sinir sese geçir
31 ağustos 2024 tarihinde standart sesleri devre dışı bırakılacağız ve bu tarihten sonra artık desteklenmeyecektir.Duyuru, 31 ağustos 2021 tarihinden önce mevcut tüm konuşma aboneliklerine gönderilmiştir. Devre dışı bırakma süresi (31 ağustos 2021-31ağustos 2024) sırasında, mevcut standart ses kullanıcıları standart seslerini kullanmaya devam edebilir, tüm yeni kullanıcılar/yeni konuşma kaynakları sinir seslerinden ilerlemelidir.
Eylem gerekiyor
- Fiyat yapısını gözden geçirin ve iş gereksinimleriniz için doğru sesi öğrenmek için sayfanın altındaki sinir ses örneklerini dinleyin.
- Değişikliği yapmak için, konuşma sensimi talebinizdeki ses adını, seçilen dillerde 31 Ağustos 2024 ile desteklenen sinir ses adlarına güncelleştirmek üzere örnek kodu izleyin . 1 eylül 2024' den itibaren standart sesler artık desteklenmeyecektir, lütfen bulutta veya şirket içinde konuşma Senom isteğiniz için sinir seslerinizi kullanın. Şirket içi kapsayıcı için lütfen sinir Voice kapsayıcılarını kullanın ve yönergeleriizleyin.