İnsan etiketli transkripsiyonlar oluşturma

Makale
01/22/2024

İnsan etiketli transkripsiyonlar, bir ses dosyasının tek tek transkripsiyonlarıdır. Tanıma doğruluğunu geliştirmek için, özellikle de sözcükler silindiğinde veya yanlış değiştirildiğinde insan etiketli transkripsiyonlar kullanırsınız. Bu kılavuz, yüksek kaliteli transkripsiyonlar oluşturmanıza yardımcı olabilir.

Tanımayı geliştirmek için büyük bir transkripsiyon verileri örneği gereklidir. 1 ile 20 saat arasında ses verileri sağlamanızı öneririz. Konuşma hizmeti, eğitim için 20 saate kadar ses kullanır. Bu kılavuzda ABD İngilizcesi, Mandarin Çincesi ve Almanca yerel ayarlar için bölümler bulunur.

Tüm WAV dosyalarının transkripsiyonları tek bir düz metin dosyasında (.txt veya .tsv) bulunur. Transkripsiyon dosyasının her satırı, ses dosyalarından birinin adını ve ardından ilgili transkripsiyonu içerir. Dosya adı ve transkripsiyon bir sekme (\t) ile ayrılır.

Örneğin:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Transkripsiyonlar, sistemin bunları işleyebilmesi için metin normalleştirilmiştir. Ancak, veri kümesini karşıya yüklemeden önce bazı önemli normalleştirmeler yapmanız gerekir.

İngilizce ve Mandarin Çincesi dışındaki diller için insan etiketli transkripsiyonlar, bayt sırası işaretçisi ile kodlanmış UTF-8 olmalıdır. Diğer yerel ayarlar transkripsiyon gereksinimleri için aşağıdaki bölümlere bakın.

en-US

İngilizce ses için insan etiketli transkripsiyonlar yalnızca ASCII karakterleri kullanılarak düz metin olarak sağlanmalıdır. Latin-1 veya Unicode noktalama karakterleri kullanmaktan kaçının. Bu karakterler genellikle bir sözcük işleme uygulamasından metin kopyalarken veya web sayfalarından veri kazırken yanlışlıkla eklenir. Bu karakterler varsa, bunları uygun ASCII değiştirmesiyle güncelleştirin.

İşte birkaç örnek:

Kaçınılması gereken karakterler	Değiştirme	Notlar
"Merhaba dünya"	“Merhaba dünya”	Açma ve kapatma tırnak işaretlerinin yerine uygun ASCII karakterleri kullanılır.
John günü	John günü	Kesme işareti, uygun ASCII karakteriyle değiştirilir.
İyiydi, hayır, harikaydı!	İyiydi, hayır, harikaydı!	Uzun tire iki kısa çizgiyle değiştirilir.

ABD İngilizcesi için metin normalleştirmesi

Metin normalleştirme, sözcüklerin modeli eğitirken kullanılan tutarlı bir biçime dönüştürülmesidir. Bazı normalleştirme kuralları metne otomatik olarak uygulanır, ancak insan etiketli transkripsiyon verilerinizi hazırlarken bu yönergeleri kullanmanızı öneririz:

Kısaltmaları sözcüklerle yazın.
Standart olmayan sayısal dizeleri sözcüklerle (muhasebe terimleri gibi) yazın.
Alfabetik olmayan karakterler veya karışık alfasayısal karakterler, okunduğu gibi yazılmalıdır.
Sözcük olarak telaffuz edilen kısaltmalar ("radar", "lazer", "RAM" veya "NATO" gibi) düzenlenmemelidir.
Her harfi boşlukla ayırarak ayrı harfler olarak telaffuz edilen kısaltmaları yazın.
Ses kullanıyorsanız, sayıları sesle eşleşen sözcükler olarak yazın (örneğin, "101" "bir oh bir" veya "yüz bir" olarak telaffuz edilebilir).
Karakterleri, sözcükleri veya sözcük gruplarını "evet evet evet evet" gibi üç kereden fazla yinelemekten kaçının. Konuşma hizmeti böyle bir yineleme içeren satırları bırakabilir.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin	Normalleştirmeden sonraki metin (insan)
Dr. Bruce Banner	Doktor Bruce Banner
James Bond, 007	James Bond, çift oh yedi
Ke$ha	Kesha
2x4 ne kadardır?	İkiye dört ne kadar süre
Toplantı 1-3 arası	Toplantı bir ile 15:00 arasında
Kan grubum O+	Kan grubum O pozitif
Su H20	Su H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
BOM ile UTF-8	BOM ile U T F 8
Maliyeti 3,14 ABD dolarıdır	Maliyeti 144.

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

Küçük harfler kullanın.
Sözcüklerdeki kesme işaretleri dışında tüm noktalama işaretlerini kaldırın.
Sayıları dolar tutarları gibi sözcüklere/konuşulan biçime genişletin.

Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:

Özgün metin	Normalleştirmeden sonraki metin (otomatik)
"Kutsal inek!" dedi Batman.	kutsal inek batman dedi
"Ne?" dedi Batman'in yardımcısı Robin.	batman'in yardımcı robin'i ne dedi
Git onları al!	git al
Çifte eklemlendim.	Çifte eklemlendim
104 Elm Caddesi	bir oh dört Elm caddesi
102.7'ye ayarlama	bir oh iki nokta yediye ayarlama
Pi yaklaşık 3.14	pi yaklaşık üç nokta bir dört

de-DE

Almanca ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır.

Almanca için metin normalleştirmesi

Ondalık noktaları "." olarak değil", "" olarak yazın.
Zaman ayırıcılarını ":" olarak yazma ve "". (örneğin: 12:00 Uhr).
"ca" gibi kısaltmalar değiştirilmez. Tam uçlu formu kullanmanızı öneririz.
Dört ana matematik işleci (+, -, *ve /) kaldırılır. Bunları yazılı formla değiştirmenizi öneririz: "artı", "eksi", "mal" ve "geteilt."
Karşılaştırma işleçleri kaldırılır (=, <ve >). Bunları "gleich", "kleiner als" ve "grösser als" ile değiştirmenizi öneririz.
3/4 gibi kesirleri yazılı biçimde yazın (örneğin: 3/4 yerine "drei viertel").
"€" simgesini yazılı "Euro" formuyla değiştirin.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin	Kullanıcı normalleştirmeden sonraki metin	Sistem normalleştirmeden sonraki metin
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 artı 3 eksi 4	zwei artı drei eksi vier

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

Tüm metinler için küçük harfler kullanın.
Çeşitli tırnak işaretleri de dahil olmak üzere tüm noktalama işaretlerini kaldırın ("test", 'test', "test" ve «test» tamamdır).
Bu kümeden özel karakterler içeren satırları at: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² μ × ÿ Ø¬¬.
Sayıları dolar veya Euro tutarları dahil olmak üzere konuşulan forma genişletin.
Umlautları yalnızca a, o ve sen için kabul et. Diğerleri "th" ile değiştirilir veya atılır.

Transkripsiyonda otomatik olarak gerçekleştirilen normalleştirmenin birkaç örneği aşağıda verilmiştir:

Özgün metin	Normalleştirmeden sonraki metin
Frankfurter Ring	frankfurter halkası
"Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

Japonca (ja-JP) dilinde her cümle için en fazla 90 karakter uzunluğundadır. Daha uzun cümleleri olan satırlar atılır. Daha uzun metin eklemek için arasına nokta ekleyin.

zh-CN

Mandarin Çincesi ses için insan etiketli transkripsiyonlar utf-8 bayt sırası işaretçisi ile kodlanmış olmalıdır. Yarım genişlikli noktalama işaretleri kullanmaktan kaçının. Bu karakterler, verileri bir sözcük işleme programına hazırladığınızda veya web sayfalarından verileri kazıdığınızda yanlışlıkla eklenebilir. Bu karakterler varsa, bunları uygun tam genişlikli değiştirmeyle güncelleştirin.

İşte birkaç örnek:

Kaçınılması gereken karakterler	Değiştirme	Notlar
"你好"	"你好"	Açma ve kapatma tırnak işaretlerinin yerine uygun karakterler kullanılır.
需要什么帮助?	需要什么帮助？	Soru işareti, uygun karakterle değiştirilir.

Mandarin Çincesi için metin normalleştirme

Kısaltmaları sözcüklerle yazın.
Sayısal dizeleri konuşulan biçimde yazın.

Transkripsiyonda gerçekleştirmeniz gereken birkaç normalleştirme örneği aşağıda verilmiştir:

Özgün metin	Normalleştirmeden sonraki metin
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Aşağıdaki normalleştirme kuralları transkripsiyonlara otomatik olarak uygulanır:

Tüm noktalama işaretlerini kaldırın.
Sayıları konuşulan forma genişletin.
Tam genişlikli harfleri yarım genişlikli harflere dönüştürün.
Tüm İngilizce sözcükler için büyük harfler kullanma.

Aşağıda, otomatik transkripsiyon normalleştirmesinin bazı örnekleri verilmiştir:

Özgün metin	Normalleştirmeden sonraki metin
3.1415	三点一四一五
¥ 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

İnsan etiketli transkripsiyonlar oluşturma

en-US

ABD İngilizcesi için metin normalleştirmesi

de-DE

Almanca için metin normalleştirmesi

ja-JP

zh-CN

Mandarin Çincesi için metin normalleştirme

Sonraki Adımlar

Ek kaynaklar