Ses modelinizi oluşturma ve kullanma

Eğitim verilerini hazırlama'da,özel bir nöral sesi ve farklı biçim gereksinimlerini eğitmek için kullanabileceğiniz farklı veri türleri hakkında bilgi edinebilirsiniz. Verilerinizi ve ses yeteneği sözel deyiminizi hazır olduktan sonra, bunları Speech Studio. Bu makalede, Özel Nöral Ses portal üzerinden Speech Studio öğrenirsiniz. Özel sinir sesi için desteklenen dillere bakın.

Önkoşullar

Ses yeteneği ayarlama

Ses yeteneği, sesleri kaydedilen ve nöral ses modelleri oluşturmak için kullanılan bir kişi veya hedef konuşmacıdır. Ses oluşturmadan önce ses kişinizi tanımlayın ve doğru ses yeteneğinizi seçin. Ses örneklerini kaydetme hakkında ayrıntılı bilgi için öğreticiye bakın.

Sinir sesi eğitmek için ses yeteneği tarafından kaydedilen ve konuşma verilerini kullanarak özel bir ses modeli eğiten bir ses yeteneği profili oluşturmanız gerekir. Kayıt betiğinizi hazırlarken aşağıdaki cümleyi dahil etmek için emin olun:

"[adınız ve soyadınızı], sesimin kayıtlarının [şirketin adını eyalet olarak ifade etmek] tarafından sesimin yapay bir sürümünü oluşturmak ve kullanmak için kullanılamayacaklarının farkındayım." Bu cümle, eğitim verilerini onay deyiminde ses ile eşle eşleyenin doğrulamak için kullanılır. > Ses yeteneği doğrulaması hakkında daha fazla bilgi için buraya tıklayın.

Not

Özel Nöral Ses sınırlı erişimle kullanılabilir. Sorumlu AI gereksinimlerini anlayın veardından erişimi için geçerli olduğundan emin olun.

Aşağıdaki adımlarda ses yeteneği sözlü onay dosyalarını hazırladığınız varsayılacaktır. Özel bir Speech Studio projesi seçmek için özel bir ses projesi seçin ve ardından ses yeteneği profili oluşturmak için aşağıdaki adımları izleyin.

  1. MetinDen Konuşma'ya gidin > Özel Ses ses yeteneği > ayarlama > projesini seçin.

  2. Ses yeteneği ekle'yi seçin.

  3. Ardından ses özelliklerini tanımlamak için Kullanılacak hedef senaryo'ya seçin. Ardından Ses özelliklerinizi açıkla.

Not

Sizin sağlaynız senaryolar, uygulama formunda ne için uygulandığınız ile tutarlı olmalıdır.

  1. Ardından ses Upload deyimine gidin, önceden hazır yüklediğiniz ses yeteneği deyimini karşıya yüklemek için yönergeleri izleyin.

Not

Konuşma ifadesinin, kayıt ortamı ve konuşma stili de dahil olmak üzere eğitim verilerinizle aynı ayarlarda kaydedildiklerine emin olun.

  1. Son olarak Gözden geçir ve oluştur'a gidin, ayarları gözden geçirebilirsiniz ve Gönder'i seçebilirsiniz.

Upload verileri toplama

Verilerinizi karşıya yüklemeye hazır olduğunda, ilk eğitim kümenizi eklemek ve verileri karşıya yüklemek için Eğitim verilerini hazırlama sekmesine gidin. Eğitim kümesi ses modeli eğitimi için kullanılan bir dizi ses konuşma ve bunların eşleme betikleridir. Eğitim verilerinizi düzenlemek için bir eğitim kümesi kullanabilirsiniz. Veri hazırlığı denetimi her eğitim kümesine göre yapılır. Eğitim kümesine birden çok veri aktarabilirsiniz.

Eğitim verilerinizi oluşturmak ve gözden geçirmek için aşağıdakini yapabilirsiniz.

  1. Yeni bir eğitim kümesi eklemek için Eğitim verilerini hazırla sekmesinde Eğitim kümesi ekle'yi seçerek Ad ve Açıklama Oluştur > girin.

    Eğitim kümesi başarıyla oluşturulduğunda verilerinizi karşıya yüklemeye başlayabilirsiniz.

  2. Verileri karşıya yüklemek için veri Upload seçin Veri türü Upload veri seçin ve > veriniz için Ad ve Açıklama girin > ayarları gözden geçirerek > > Gönder'i seçin.

Not

  • Yinelenen ses adları eğitimden kaldırılır. Bu dosyada veya birden çok dosyada bulunan .zip verilerde aynı ses adlarının .zip olun. Konuşma kimlikleri (ses veya betik dosyalarında) çoğaltılmışsa reddedilir.
  • Önceki Speech Studio sürümünde veri dosyaları oluşturduysanız, bunları kullanmak için önceden verileriniz için bir eğitim kümesi belirtmeniz gerekir. Yoksa, veri adına bir ünlem işareti eklenir ve veriler kullanılamaz.

Karşıya yüklediğiniz her veri, seçtiğiniz veri türü için gereksinimleri karşılamalıdır. Verilerinizi karşıya yüklenmeden önce doğru şekilde biçimlendirmek önemlidir. Bu sayede veriler, Özel Nöral Ses hizmeti tarafından işlenecektir. Eğitim verilerini hazırlama'ya gidin ve verilerinizin doğru biçimlendirilmiş olduğundan emin olun.

Not

  • Standart abonelik (S0) kullanıcıları aynı anda beş veri dosyası yükleyebilir. Sınıra ulaşıyorsanız, veri dosyalarından en az birinin içeri aktarmayı tamamlayana kadar bekleyin. Ardından yeniden deneyin.
  • Abonelik başına içe aktarılmış izin verilen en fazla veri dosyası sayısı, ücretsiz .zip (F0) kullanıcıları için 10, standart abonelik (S0) kullanıcıları için 500'tir.

Gönder düğmesine bastığınızda veri dosyaları otomatik olarak doğrulanır. Veri doğrulama, ses dosyalarında dosya biçimini, boyutunu ve örnekleme oranını doğrulamak için bir dizi denetim içerir. Varsa hataları düzeltin ve yeniden gönderin.

Veriler karşıya yüklendiktan sonra eğitim kümesi ayrıntı görünümünde ayrıntıları kontrol edin. Genel Bakış sekmesinde, verilerinizin her biri için söyleniş puanlarını ve gürültü düzeyini daha fazla kontrol edin. Söyleniş puanı 0 ile 100 arasında değişiyor. 70'in altındaki bir puan normalde bir konuşma hatası veya betik eşleşmez olduğunu gösterir. Ağır bir vurgu, söyleniş puanını düşürün ve oluşturulan dijital sesi etkileyebilir.

Sinyalden gürültüye oranın (SNR) daha yüksek olması, seste daha düşük gürültü olduğunu gösterir. Profesyonel stüdyoları kaydederek genellikle 50'den fazla SNR'ye ulaşabilirsiniz. SNR'nin 20'nin altında olduğu ses, üretilen seste açıkça gürültüye neden olabilir.

Düşük söyleniş puanlarına veya zayıf sinyal-gürültü oranlarına sahip tüm ifadeleri yeniden kaydetmeyi göz önünde bulundurabilirsiniz. Yeniden kaydedeyeyebilirsiniz, bu ifadeleri verilerinizden dışlamayı göz önünde bulundurabilirsiniz.

Veri ayrıntıları'nın üzerinde, eğitim kümesi veri ayrıntılarını kontrol edin. Verilerle ilgili tipik sorunlar varsa, eğitimden önce bunları düzeltmek için görüntülenen iletide yer alan yönergeleri izleyin.

Sorunlar üç türe ayrılır. İlgili hata türlerini kontrol etmek için aşağıdaki üç tabloya bakın.

Aşağıdaki tabloda listelenen ilk hata türünü el ile düzeltin, aksi takdirde bu hatalara sahip veriler eğitim sırasında hariç tutulacak.

Kategori Ad Açıklama
Komut Dosyası Geçersiz ayırıcı Konuşma kimliğini ve betik içeriğini sekme karakteriyle ayırmanız gerekir.
Komut Dosyası Geçersiz betik kimliği Betik satırı kimliği sayısal olmalıdır.
Komut Dosyası Çoğaltılmış betik Betik içeriğinin her satırı benzersiz olmalıdır. Satırı ile {} yineler.
Komut Dosyası Betik çok uzun Betik 1.000 karakterden az olmalıdır.
Komut Dosyası Eşleşen ses yok Her konuşmanın kimliği (betik dosyasının her satırı) ses kimliğiyle eşleşmeli.
Komut Dosyası Geçerli betik yok Bu veri kümesinde geçerli bir betik bulunamadı. Ayrıntılı sorun listesinde görünen betik satırlarını düzeltin.
Ses Eşleşen betik yok Betik kimliğiyle hiçbir ses dosyası eşleşmez. wav dosyalarının adı betik dosyasındaki kimliklerle eşleşmeli.
Ses Geçersiz ses biçimi . Wav dosyalarının ses biçimi geçersiz. Soxgibi bir ses aracı kullanarak WAV dosya biçimini denetleyin.
Ses Düşük örnekleme hızı . Wav dosyalarının örnekleme hızı 16 KHz 'den düşük olamaz.
Ses Çok uzun ses Ses süresi 30 saniyeden uzun. Uzun sesi birden çok dosyaya ayırın. Söyleytiğimiz, 15 saniyeden kısa olmalıdır.
Ses Geçerli ses yok Bu veri kümesinde geçerli ses bulunamadı. Ses verilerinizi denetleyip yeniden yükleyin.

Aşağıdaki tabloda listelenen hataların ikinci türü otomatik olarak düzeltilecektir, ancak sabit verilerin çift işaretlenmesi önerilir.

Kategori Ad Açıklama
Ses Stereo ses otomatik sabit Ses örneği kayıtlarınızın Mono ' i kullanın. Stereo ses kanalları, içerik kaybına neden olabilecek bir mono kanalında otomatik olarak birleştirilir. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.
Birim Yoğun toplu otomatik sabit Yoğun birimin en yüksek değeri-3 dB (maksimum birim %70) ile-6 dB (%50) arasında olmalıdır. Örnek kayıt veya veri hazırlama sırasında hacmi yoğun olarak denetleyin. Bu ses, tepe aralığı otomatik olarak (-4 dB veya %65%) sığacak şekilde doğrusal şekilde ölçeklendirilir. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.
Mez Sessizlik otomatik düzeltildi Başlangıç sessizlik 200 MS 'den daha uzun olarak algılanır ve otomatik olarak 200 MS 'ye kırpılmıştır. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.
Mez Sessizlik otomatik düzeltildi Son sessizlik 200 MS 'den daha uzun olarak algılanır ve otomatik olarak 200 MS 'ye kırpılmıştır. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.
Mez Sessizlik otomatik düzeltildi Başlangıç sessizlik, 100 ms 'den kısa olarak algılanır ve otomatik olarak 100 ms olarak genişletildi. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.
Mez Sessizlik otomatik düzeltildi Son sessizlik 100 ms 'den daha kısa olarak algılanır ve otomatik olarak 100 ms olarak genişletildi. Normalleştirilmiş veri kümesini indirin ve gözden geçirin.

Aşağıdaki tabloda listelenen üçüncü hata türleri düzeltilmemişse, bu hatalara sahip veriler eğitim sırasında dışlanmayabilse de, eğitim kalitesini etkiler. Daha yüksek kaliteli eğitim için bu hataları el ile düzeltme yapmanız önerilir.

Kategori Ad Açıklama
Komut Dosyası Normalleştirilmiş olmayan metin Bu betik 0-9 basamağı içeriyor. Onları normalleştirilmiş sözcüklere genişletin ve sesle eşleştirin. Örneğin, ' 123 ' öğesini ' 123 ' olarak normalleştirin.
Komut Dosyası Normalleştirilmiş olmayan metin Bu betik semboller içeriyor {} . Simgeleri sesle eşleşecek şekilde normalleştirin. Örneğin, ' %50 ', ' 50 yüzde ' olarak.
Komut Dosyası Yeterli sayıda soru yok Toplam Aralık sayısının en az %10 ' ü soru cümleler olmalıdır. Bu, ses modelinin şüpheli bir tonu doğru bir şekilde ifade etmesine yardımcı olur.
Komut Dosyası Yeterli ünlem işareti yok Toplam Aralık sayısının en az %10 ' ü ünlem cümleler olmalıdır. Bu, ses modelinin heyecanlı bir tonu doğru şekilde ifade etmesine yardımcı olur.
Ses Sinir Voice için düşük örnekleme oranı Sinir sesleri oluşturmak için. wav dosyalarınızın örnekleme hızının 24 KHz veya daha yüksek olması önerilir. Daha düşükse, otomatik olarak 24 KHz olarak örneklenir.
Birim Toplam birim çok düşük Birim-18 dB 'den düşük (maksimum birim %10) olmalıdır. Örnek kayıt veya veri hazırlama sırasında uygun aralıktaki birim ortalama düzeyini denetleyin.
Birim Birim taşması Taşma birimi şurada algılandı: {} s. Birimin en yüksek değerindeki taşma düzeyini önlemek için kayıt donanımını ayarlayın.
Birim Sessizlik sorununu Başlat İlk 100 ms sessizlik temiz değildir. Gürültü tabanı kaydetme düzeyini azaltın ve ilk 100 ms 'yi başlangıç sessiz olarak bırakın.
Birim Sessizlik sorununu Sonlandır Son 100 ms sessizlik temiz değildir. Gürültü tabanı kaydetme düzeyini azaltın ve son 100 ms 'yi sonda sessiz olarak bırakın.
Mez Düşük puanlanmış sözcükler Betiği ve ses içeriğini inceleyerek, gürültü tabanı düzeyini eşleştiğinden ve denetlediğinizden emin olun. Uzun sessizlik uzunluğunu azaltın veya çok uzunsa, sesi birden çok beyinde bölmek için.
Mez Sessizlik sorununu Başlat İlk sözcükten önce çok fazla ses vardı. İle eşleştiğinden emin olmak için betiği ve ses içeriğini gözden geçirin, gürültü tabanı düzeyini denetleyin ve ilk 100 ms sessiz yapın.
Mez Sessizlik sorununu Sonlandır Son sözcüğün ardından fazladan ses duyuldu. Eşleşmelerini, gürültü kat düzeyini kontrol etmek ve son 100 ms'nin sessizliğini yapmak için betiği ve ses içeriğini gözden geçirebilirsiniz.
Uyuşmaz -lığı Düşük sinyal kirliliği oranı Ses SNR düzeyi 20 dB'den düşüktür. En az 35 dB önerilir.
Uyuşmaz -lığı Kullanılabilir puan yok Bu seste konuşma içeriği tanınamadı. Ses ve betik içeriğini kontrol edin, ses geçerli olduğundan ve betikle eş olduğundan emin olun.

Özel sinirsel ses modelinizi eğitin

Veri dosyalarınız doğrulandıktan sonra bunları kullanarak özel nöral ses modelinizi oluşturabilirsiniz.

  1. Modeli eğit sekmesinde Modeli eğit'i seçerek karşıya yüklediğiniz verilerle bir ses modeli oluşturun.

  2. Modeliniz ve hedef diliniz için sinirsel eğitim yöntemini seçin.

Ses modeliniz varsayılan olarak eğitim verilerinizin aynı dilinde eğitilmiş olur. Ses modeliniz için ikincil dil (önizleme) de oluşturabilirsiniz. Özel sinir sesi ve diller arası özellik için desteklenen dilleri kontrol edin: özelleştirme dili.

Özel sinir seslerinin eğitimi ücretsizdir. Ayrıntılar için fiyatlandırmayı kontrol edin. Ancak, S0 Konuşma kaynaklarıyla 31.03.2021'den önce dağıtılmış istatistiksel parametrik veya birikmeli ses modelleriniz varsa, Azure aboneliğinize ücretsiz sinir eğitimi kredileri sunulur ve 5 farklı sinir sesi sürümünü ücretsiz olarak eğitebilirsiniz.

  1. Ardından, eğitim için kullanmak istediğiniz verileri seçin ve bir konuşmacı dosyası belirtin.

Not

  • Özel bir sinir sesi oluşturmak için en az 300 konuşma seçmeniz gerekir.
  • Sinir sesi eğitmek için, özel bir ses modeli eğitmek için konuşma verilerini kullanmak üzere ses yeteneği onay dosyasıyla birlikte bir ses yeteneği profili belirtmeniz gerekir. Özel Nöral Ses sınırlı erişimle kullanılabilir. Sorumlu AI gereksinimlerini anlaya ve erişimi burada uygulayasınız.
  1. Ardından test betiğinizi seçin.

Modeli varsayılan betikle test etmeye yardımcı olmak için her eğitimde otomatik olarak 100 örnek ses dosyası oluşturulur. ayrıca isteğe bağlı olarak kendi test betiğinizi de s hizmetleriniz olabilir. Test betiği, dosya adlarını (her konuşmanın kimliği) dışlamalı, aksi takdirde bu kimlikler konuşulacak. Aşağıda, konuşmaların tek bir dosyada nasıl düzen .txt verilmiştir:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Konuşmanın her paragrafı ayrı bir sesle sonuçlandır. Tüm cümleleri tek bir seste birleştirmek için tek bir paragrafta birleştirin.

Not

  • Test betiği 1 MB'ın altında bir txt dosyası olmalıdır. Desteklenen kodlama biçimi ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE veya UTF-16-BE'yi içerir.
  • Oluşturulan ses, karşıya yüklenen test betiği ile varsayılan test betiği birleşimidir.
  1. Bu modeli tanımlamanıza yardımcı olacak bir Ad ve Açıklama girin.

Dikkatle bir ad seçin. Buraya girmeniz gereken ad, SSML girişinin bir parçası olarak konuşma sentezi isteğinizin sesini belirtmek için kullanabileceğiniz addır. Yalnızca harf, sayı ve -, _, ve (', ') gibi birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.

Açıklama alanı yaygın olarak kullanılan kullanımlardan biri, modeli oluşturmak için kullanılan verilerin adlarını kaydetmektir.

  1. Ayarları gözden geçirin ve gönder'i seçerek modeli eğitin.

Not

Yinelenen ses adları eğitimden kaldırılır. Seçerek birden çok dosyada aynı ses adlarının yer .zip olun.

Modeli eğit tablosu, bu yeni oluşturulan modele karşılık gelen yeni bir giriş görüntüler. Tabloda durum da görüntülenir: İşlem, Başarılı, Başarısız.

Gösterilen durum, burada gösterildiği gibi verilerinizi bir ses modeline dönüştürme işlemini gösterir.

Durum Anlamı
İşleniyor Ses modeliniz oluşturulacak.
Başarılı Ses modeliniz oluşturuldu ve dağıtılabilir.
Başarısız Ses modeliniz, örneğin, bilinmeyen veri sorunları veya ağ sorunları gibi birçok nedenden dolayı eğitimde başarısız oldu.

Eğitim süresi, eğitimde kullandığınız veriye bağlı olarak değişir. Özel bir nöral sesi eğitmek ortalama 40 işlem saati kadar sürer.

Not

Standart abonelik (S0) kullanıcıları aynı anda üç ses eğitebilirsiniz. Sınıra ulaşıyorsanız ses modellerinden en az birinin eğitimi tamamlaya kadar bekleyin ve sonra yeniden deneyin.

  1. Modeli başarıyla eğitdikten sonra model ayrıntılarını gözden geçirebilirsiniz.

Ses modeliniz başarıyla oluşturulduktan sonra, kullanmak üzere dağıtmadan önce test etmek için oluşturulan örnek ses dosyalarını kullanabilirsiniz.

Ses kalitesi; eğitim verisi boyutu, kayıt kalitesi, transkript dosyasının doğruluğu, eğitim verilerine kaydedilen sesin, amaçlanan kullanım örneğiniz için tasarlanmış sesin kişilikle ne kadar eş olduğu ve daha birçok faktöre bağlıdır. Teknolojimizin özellikleri ve sınırları hakkında daha fazla bilgi edinmek ve modelkalitenizi geliştirmek için en iyi yöntem hakkında daha fazla bilgi edinmek için buraya göz edin.

Özel sinirsel ses uç noktası oluşturma ve kullanma

Ses modelinizi başarıyla oluşturduktan ve test ettikten sonra özel bir Metin-Konuşma uç noktasına dağıtın. Daha sonra bu uç noktayı, normal uç nokta yerine kullanarak metin konuşma isteklerinde REST API. Özel uç noktanız yalnızca modeli dağıtmak için kullanılan abonelik tarafından çağrılabilirsiniz.

Özel bir nöral ses uç noktası oluşturmak için aşağıdakini yapabilirsiniz.

  1. Modeli dağıt sekmesinde Modeli dağıt'ı seçin.
  2. Ardından, özel uç noktanız için Bir Ad ve Açıklama girin.
  3. Ardından bu uç noktayla ilişkilendirmek istediğiniz ses modelini seçin.
  4. Son olarak, uç noktanızı oluşturmak için Dağıt'ı seçin.

Dağıt düğmesine tıkladıktan sonra uç nokta tablosunda yeni uç noktanız için bir giriş gösterilir. Yeni bir uç nokta örneği birkaç dakika sürebilir. Dağıtımın durumu Başarılı olduğunda uç nokta kullanıma hazırdır.

noktanızı her zaman kullanasanız Askıya Alabilir ve Sürdürebilirsiniz. Bir uç nokta askıya alındıktan sonra yeniden etkinleştirildiği zaman uç nokta URL'si aynı tutulur, bu nedenle uygulamalarınıza kodunuzu değiştirmeniz gerekmeyecektir.

Uç noktayı yeni bir modele de güncelleştirebilirsiniz. Modeli değiştirmek için yeni modelin güncelleştirmek istediğiniz modelle aynı şekilde adlandırılmış olduğundan emin olun.

Not

  • Standart abonelik (S0) kullanıcıları, her biri kendi özel sinir sesine sahip en fazla 50 uç nokta oluşturabilir.
  • Özel sinir sesinizi kullanmak için ses modeli adını belirtmeniz, özel URI'yi doğrudan bir HTTP isteğinde kullanmanız ve aynı aboneliği kullanarak TTS hizmetinin kimlik doğrulamasını geçmeniz gerekir.

Uç noktanız dağıtıldıktan sonra uç nokta adı bir bağlantı olarak görünür. Uç nokta anahtarı, uç nokta URL'si ve örnek kod gibi uç noktanıza özgü bilgileri görüntülemek için bağlantıya tıklayın.

Özel uç nokta, metinden konuşma istekleri için kullanılan standart uç noktayla işlevsel olarak aynıdır. Daha fazla bilgi için bkz. Konuşma SDK'sı veya REST API.

Ayrıca kolay bir kullanıcı arabirimi kullanarak ses Ses İçeriği Oluşturmaayarlamanızı sağlayan çevrimiçi bir araç (Ses İçeriği Oluşturma) de sağlaruz.

Sonraki adımlar