İnsan etiketlendirmeleri oluşturma

İnsan etiketli döküm, bir ses dosyasının sözcük sözcük dökümü. Özellikle sözcükler silindiğinde veya yanlış değiştirildiğinde, tanınma doğruluğunu artırmak için insan etiketli döküm kullanırsınız.

Tanımayı geliştirmek için büyük bir döküm verileri örneği gereklidir. 1 ila 20 saatlik Döküm verileri sağlamayı öneririz. Konuşma hizmeti, eğitim için 20 saate kadar ses kullanacaktır. Bu sayfada, yüksek kaliteli dökümler oluşturmanıza yardımcı olmak için tasarlanan yönergeleri inceleyeceğiz. Bu kılavuz, ABD Ingilizcesi, MANDARIN Çince ve Almanca bölümleri ile yerel ayar tarafından bölünmüştür.

Not

Tüm temel modeller, ses dosyalarıyla özelleştirmeyi desteklemez. Bir temel model bunu desteklemiyorsa, eğitim yalnızca ilgili metinle aynı şekilde döküm metinlerini kullanacaktır. Ses verileriyle eğitimi destekleyen temel modellerin listesi için bkz. dil desteği .

Not

Eğitim için kullanılan temel modeli değiştirirken ve eğitim veri kümesinde seslerinizi değiştirdiğinizde, yeni seçilen temel modelin ses verileriyle eğitimi destekleyip desteklemediğini her zaman denetleyin. Daha önce kullanılan temel model, ses verileriyle eğitimi desteklemeiyorsa ve eğitim veri kümesi ses içeriyorsa, yeni temel modele sahip eğitim süresi büyük ölçüde artar ve birkaç saat ile birkaç güne ve daha fazlasına kolayca gidebilirler. Konuşma hizmeti aboneliğiniz eğitim için adanmış donanıma sahip bir bölgede değilse bu özellikle doğrudur.

Yukarıdaki paragrafta açıklanan sorunu ortaya çıkardıysanız, veri kümesindeki ses miktarını azaltarak veya tamamen yalnızca metni bırakarak eğitim süresini hızla azaltabilirsiniz. Konuşma hizmeti aboneliğiniz eğitim için adanmış donanıma sahip bir bölgede değilse , ikinci seçenek kesinlikle önerilir.

ABD Ingilizcesi (en-US)

Ingilizce ses için insan etiketli dökümlerde yalnızca ASCII karakterler kullanılarak düz metin olarak sağlanmalıdır. Latin-1 veya Unicode noktalama karakterleri kullanmaktan kaçının. Bu karakterler genellikle bir sözcük işleme uygulamasından metin kopyalanırken veya Web sayfalarından veri koruma verilerinden yanlışlıkla eklenir. Bu karakterler varsa, bunları uygun ASCII değiştirme ile güncelleştirdiğinizden emin olun.

İşte birkaç örnek:

Kaçınacak karakterler Değiştirme Notlar
"Merhaba Dünya" “Merhaba dünya” Açma ve kapatma tırnak işaretleri, uygun ASCII karakterleriyle değiştirilmiştir.
John 'un günü John 'un günü Kesme işareti uygun ASCII karakteriyle değiştirildi.
Her şey iyi değildi. harika! iyi--Hayır, harika! Em Dash iki kısa çizgi ile değiştirildi.

ABD Ingilizcesi için metin normalleştirme

Metin normalleştirme, bir modeli eğitmek için kullanılan tutarlı bir biçime sözcüklerin dönüştürülmesine sahiptir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır; ancak, insan etiketli döküm verilerini hazırlarken bu yönergelerin kullanılmasını öneririz:

  • Sözcüklerdeki kısaltmaları yazın.
  • Sözcüklerdeki standart olmayan sayısal dizeleri (muhasebe terimleri gibi) yazın.
  • Alfabetik olmayan karakterler veya karışık alfasayısal karakterler aynı şekilde yerleştirilmelidir.
  • Sözcüklerin düzenlenmemesi gereken kısaltmalar ("Radar", "lazer", "RAM" veya "NATO" gibi).
  • Boşlukla ayrılmış olarak, her bir harfle ayrı harfler olarak uygulanan kısaltmalar yazın.
  • Ses kullanırsanız, ses ile eşleşen sözcükler olarak sayı (örneğin, "101", "1 0 1" veya "101") olarak kullanılabilir.
  • Karakterleri, kelimeleri veya sözcük gruplarını üç kereden fazla yinelemekten kaçının, örneğin "Yes Yes Yes Yes". Bu tür tekrarları olan satırlar konuşma hizmeti tarafından bırakılmış olabilir.

Aşağıda, bir dökümde gerçekleştirmeniz gereken normalleştirmenin birkaç örneği verilmiştir:

Özgün metin Normalleştirme sonrasında metin (insan)
Dr. Bruce başlığı Doctor Bruce başlığı
James Bononu, 007 James bonu, Çift Oh
Ke $ ha Kesha
2x4 ne kadar süre Ne kadar ikisi dört ile
Toplantı 1-3pm 'den geçer Toplantı bir ile üç PM arasında gider
Kan türü O + Kan türü O pozitif
Su H20 Su, H 2 O
Van Halen tarafından OU812 Yürüt Van Halen tarafından e U 8 1 2 çal
BOM ile UTF-8 BOM ile U T F 8
BT maliyetleri $ 3,14 BT maliyetleri 3 14

Aşağıdaki normalleştirme kuralları, dökümlere otomatik olarak uygulanır:

  • Küçük harfler kullanın.
  • Sözcüklerin içinde kesme işareti dışında tüm noktalama işaretlerini kaldırın.
  • Sayıları, dolar tutarları gibi sözcükler/konuşulan bir biçimde genişletin.

Bu, otomatik olarak dökümde gerçekleştirilen normalleştirme örnekleri aşağıda verilmiştir:

Özgün metin Normalleştirme sonrasında metin (otomatik)
"Kutsal Cow!" Batman diyor. Kutsal inek diyor Batman
"Ne?" Batman 'ın sidekick, deneme olduğunu diyor. Batman 'ın Sidekick 'in bir kez deneme olduğu söylenebilir
Go al-em! Git Get em
Ben Double Jointed Ben Double Jointed
104 ağaç Caddesi 1 0 4 ağaç Caddesi
102,7 olarak ayarla 1 0 2 noktası yedi olarak ayarlayın
PI yaklaşık 3,14 Pi üç nokta 1 4

Mandarin Çince (zh-CN)

Mandarin Çin seslerinin insan etiketli dökümlerinin, bir bayt sırası işaretleyicisi ile UTF-8 kodlu olması gerekir. Yarı genişlikte noktalama karakterleri kullanmaktan kaçının. Bu karakterler, verileri bir kelime işleme programında veya Web sayfalarından bir atık olarak hazırlarken, yanlışlıkla dahil edilebilir. Bu karakterler varsa, bunları uygun tam genişlikteki değiştirme ile güncelleştirdiğinizden emin olun.

İşte birkaç örnek:

Kaçınılması gereken karakterler Değiştirme Notlar
"你好" "你好" Açma ve kapatma tırnak işaretleri uygun karakterlerle değiştirildi.
需要什么帮助? 需要什么帮助? Soru işareti, uygun karakterle değiştirildi.

Mandarin Çincesi için metin normalleştirme

Metin normalleştirme, sözcüklerin modeli eğitken kullanılan tutarlı bir biçime dönüştürmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergelerin kullanılması önerilir:

  • Kısaltmaları sözcüklerle yazın.
  • Sayısal dizeleri konuşulan biçimde yazın.

Transkripsiyon üzerinde gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonra metin
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

  • Tüm noktalama işaretlerini kaldırma
  • Sayıları konuşulan biçime genişletme
  • Tam genişlikli harfleri yarı genişlikli harflere dönüştürme
  • Tüm İngilizce sözcükler için büyük harfler kullanma

Burada otomatik transkripsiyon normalleştirmesi için bazı örnekler verilmiştir:

Özgün metin Normalleştirmeden sonra metin
3.1415 三 点 一 四 一 五
İsne 3,5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

Almanca (de-DE) ve diğer diller

Almanca ses (ve diğer İngilizce olmayan veya Mandarin Çincesi dilleri) için insan etiketli transkripsiyonlar, bayt sırası işaretçisi ile kodlanmış UTF-8'dir. Her ses dosyası için bir insan etiketine sahip transkript sağlanmalıdır.

Almanca için metin normalleştirme

Metin normalleştirme, sözcüklerin modeli eğitken kullanılan tutarlı bir biçime dönüştürmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergelerin kullanılması önerilir:

  • Ondalık ayırıcıları "." değil "," olarak yazın.
  • Zaman ayırıcılarını ":" olarak yazın, "." değil (örneğin: 12:00 Ahr).
  • "ca" gibi kısaltmalar. , yerini alamz. Konuşmanın tamamının kullanılması önerilir.
  • Dört ana matematik işleci (+, -, * , ve /) kaldırılır. Bunları şu yazılı biçimle değiştirmenizi öneririz: "plus," "minus", "mal" ve "geteilt."
  • Karşılaştırma işleçleri kaldırılır (=, < ve >). Bunları "glegle," "çünküer als" ve "grörörö als" ile değiştirmenizi öneririz.
  • 3/4 gibi kesirleri yazılı olarak yazın (örneğin: 3/4 yerine "viertel").
  • "â" sembolünü yazılı biçimi "Euro" ile değiştirin.

Transkripsiyon üzerinde gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Kullanıcı normalleştirmeden sonra metin Sistem normalleştirmeden sonra metin
Es ist 12.23 Ahr Es ist 12:23 Ahr es ist zwölf çünkürawai und zwanzig tamamlar
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 artı 3 eksi 4 zwei plus eksi vier

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

  • Tüm metinler için küçük harfler kullanın.
  • Çeşitli tırnak işaretleri ("test", "test", "test" ve «test» dahil olmak üzere tüm noktalama işaretlerini kaldırın.
  • Bu kümedeki özel karakterleri içeren satırları at: ° ° ° ° © ² ° ® ° ± ° μ × á °°°.
  • Sayıları, dolar veya Euro tutarları da dahil olmak üzere konuşulan biçime genişletin.
  • Yalnızca a, o ve sizin için umlauts kabul edersiniz. Diğerleri "th" ile değiştirilir veya atılır.

Transkripsiyonda otomatik olarak gerçekleştirilen birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin Normalleştirmeden sonra metin
Frankfurter Halkası tiner halkası
İçenek Frage! eine frage
Wir, haben wir haben

Japonca için metin normalleştirme

Japonca (ja-JP), her cümle için en fazla 90 karakter uzunluğundadır. Daha uzun cümlelere sahip satırlar atılır. Daha uzun metin eklemek için arasına nokta ekleyin.

Sonraki Adımlar