Özel sinir sesi nedir?

Özel sinir Voice, uygulamalarınız için bir çeşit özelleştirilmiş yapay ses oluşturmanıza olanak sağlayan bir metin okuma (TTS) özelliğidir. Özel sinir sesiyle, ses örneklerinizi eğitim verileri olarak sağlayarak yüksek oranda doğal bir ses oluşturabilirsiniz. Özel sinir Voice, sinir TTS teknolojisine ve çok dilli çok konuşmacı evrensel modeline bağlı olarak, konuşma stillerinde zengin olan yapay sesler oluşturmanıza veya Modellendirme dillerini kullanmanıza olanak sağlar. Özel sinir Voice 'ın gerçekçi ve doğal seslendirme sesi, markalamayı, makineleri bir şekilde uygulamayı ve kullanıcıların hızla etkileşim kurmasına olanak sağlayabilir. Bkz. özel sinir ses ve çapraz dil özelliği için desteklenen Diller .

Not

Özel sinir Voice özelliği için kayıt gerekir ve erişim Microsoft 'un uygunluk ve kullanım ölçütlerine göre sınırlandırılır. Bu özelliği kullanmak isteyen müşterilerin kullanım örneklerini Intake formuaracılığıyla kaydetmesi gerekir.

Özel sinir seslendirme temelleri

Özel sinir Voice için kullanılan temeldeki sinir TTS teknolojisi üç ana bileşenden oluşur: metin Çözümleyicisi, sinir akustik model ve sinir vocoder. Metinden doğal yapay bir konuşma oluşturmak için metin, ilk olarak metin Çözümleyicisi 'ne giriş, bu da Fonem sırası biçiminde çıktı sağlar. Fonem, bir kelimeyi belirli bir dilde diğerlerinden ayıran temel bir ses birimidir. Bir dizi alfabesine, metinde sunulan sözcüklerin söylenmelerini tanımlar.

Ardından, Phonem sırası, Timbre, konuşma stili, hız, ıntonations ve stres desenleri gibi konuşma sinyallerini tanımlayan akustik özellikleri tahmin etmek için sinir akustik modeline gider. Son olarak, sinir vocoder, bir yapay konuşma oluşturulması için akustik özellikleri duyulabilir dalgaya dönüştürür.

Özel sinir sesi için giriş resmi.

Sinir TTS ses modelleri, insan seslerine ait kayıt örneklerine göre derin sinir ağları kullanılarak eğitilir. Bu blogda, sinir TTS 'nin, son teknoloji sinir konuşma seniş modelleriyle nasıl çalıştığını anladık. Blog Ayrıca, bir Evrensel temel modelin 2 saatten (veya 2.000 ' den az) daha az konuşma verisi ile bir hedef konuşmacı sesinden nasıl uyarlandığını ve ek olarak başka bir dile veya stile aktarılmasını da açıklar. Sinir vocoder 'ın eğitilme hakkında bilgi edinmek için blog gönderisinebakın.

Özel sinir Voice, sinir TTS altyapısını senaryolarınıza uyacak şekilde uyarlamanızı sağlar. Özel bir sinir sesi oluşturmak için konuşma Studio 'yu kullanarak kayıtlı sesi ve karşılık gelen betikleri karşıya yükleyin, modeli eğitme ve sesi özel bir uç noktaya dağıtın. Özel sinir Voice, metni gerçek zamanlı olarak konuşmaya dönüştürmek veya metin girişi ile çevrimdışı ses içeriği oluşturmak için Kullanıcı tarafından girilen metni kullanabilir. Bu, REST API, konuşma SDK 'sıveya Web portalıaracılığıyla kullanılabilir hale getirilir.

başlarken

Terimler ve tanımlar

Süre Tanım
Ses modeli Hedef konuşmacının benzersiz Vocal özelliklerini taklit eden bir metin okuma modeli. Ses modeli , ses yazı tipi veya yapay ses olarak da bilinir. Ses modeli, okunabilir olmayan ve ses kayıtları içermeyen ikili biçimdeki bir parametre kümesidir. İnsan sesinin sesini türetmek veya oluşturmak için ters mühendislik uygulanabilir.
Ses tatatmi Sesler kaydedildiği ve ses tatatçine benzer seslere yönelik ses modelleri oluşturmak için kullanılan kişiler veya hedef hoparlörler.
Standart TTS Konuşma dilini, klasik programlama veya istatistiksel yöntemler kullanılarak yeniden karıştırılmasına ve eşleştiribilecekleri şekilde fonetik kod parçacıklarına kesen standart veya "geleneksel" bir yöntem.
Sinir TTS Sinir TTS, farklı sinir ağlarını kullanarak,, işlemsel programlama veya istatistiksel yöntemlerin kullanılması yerine, doğal insan konuşmayla ilgili olarak "öğrenilmiş" olan ağları kullanarak konuşmayı sentezler. Sinir TTS, hedef ses taçesinin kayıtlarına ek olarak, birçok farklı hoparlörden ses kayıtları ile oluşturulmuş bir kaynak kitaplığı/temel modeli kullanır.
Eğitim verileri Sesli taçın ses kayıtlarını ve ilişkili metin dökümünü içeren özel bir sinir Voice eğitim veri kümesi.
Bilgisini Bu sesin ne olmasını istediğinizi bir kişi açıklar. İyi bir kişi tasarımı, tüm ses oluşturmayı, önceden oluşturulmuş kullanılabilir bir ses modeli seçip seçmeksizin yeni bir ses tatatçi atama ve kaydetme yoluyla sıfırdan başlayıp sıfırdan başlayıp bu uygulamayı bilgilendirir.
Komut Dosyası Bir komut dosyası, ses Taçınız tarafından söylenen duyuları içeren bir metin dosyasıdır. ("Utterslar" terimi hem tam cümleleri hem de daha kısa tümceleri kapsar.)

Yapay zekanın sorumluluk sahibi bir biçimde kullanılması

Özel sinir Voice 'ın nasıl kullanılacağını öğrenmek için bkz. asetat notunun. Microsoft 'un saydamlık notları, AI teknolojimizin nasıl çalıştığını anlamanıza yardımcı olmak üzere tasarlanmıştır. sistem sahipleri, bu durum sistem performansını ve davranışını etkilemesinin yanı sıra teknoloji, kişiler ve ortam dahil olmak üzere tüm sistem hakkında düşünmesinin önemini de kolaylaştırabilir.

Sonraki adımlar