Eğitim ve modelleme nedir?

Model, belirli bir dil çifti için çeviri sağlayan sistemdir. Başarılı bir eğitimin sonucu bir modeldir. Modeli eğitmek için birbirini dışlayan üç belge türü gerekir: eğitim, ayarlama ve test. Sözlük belge türü de sağlanabilir. Daha fazla bilgi için bkz. Tümce hizalama.

Eğitim kuyruğa alınırken yalnızca eğitim verileri sağlanıyorsa, Özel Çeviri otomatik olarak ayarlama ve test verilerini derler. Eğitim belgelerinizdeki cümlelerin rastgele bir alt kümesini kullanır ve bu cümleleri eğitim verilerinin dışında tutar.

Özel Çevirmen için eğitim belgesi türü

Eğitim kümesine dahil edilen belgeler Özel Çeviri aracı tarafından modelinizi oluşturmak için temel olarak kullanılır. Eğitim yürütmesi sırasında, bu belgelerde bulunan cümleler hizalanır (veya eşleştirilir). Eğitim belgeleri kümenizi oluştururken özgürlükleri alabilirsiniz. Tanjantel ilgi düzeyine sahip olduğunu inandığınız belgeleri tek bir modele ekleyebilirsiniz. BLEU (İki Dilli Değerlendirme Yedekli) puanındaki etkiyi görmek için bunları bir başkasında hariç tutun. Ayarlama kümesini ve test kümesini sabit tuttuğunuz sürece, eğitim kümesinin bileşimiyle denemeler yapmaktan çekinmeyin. Bu yaklaşım, çeviri sisteminizin kalitesini değiştirmenin etkili bir yoludur.

Proje içinde birden çok eğitim çalıştırabilir ve tüm eğitim çalıştırmalarında BLEU puanlarını karşılaştırabilirsiniz. Karşılaştırma için birden çok eğitim çalıştırırken her seferinde aynı ayarlama/test verilerinin belirtildiğine emin olun. Ayrıca sonuçları "Test" sekmesinde el ile incelediğinden de emin olun.

Özel Çeviri aracı için belge türünü ayarlama

Bu kümeye dahil edilen paralel belgeler, en iyi sonuçlar için çeviri sistemini ayarlamak için Özel Çeviri Aracı tarafından kullanılır.

Ayarlama verileri eğitim sırasında çeviri sisteminin tüm parametrelerini ve ağırlıklarını en uygun değerlere ayarlamak için kullanılır. Ayarlama verilerinizi dikkatle seçin: Ayarlama verileri, gelecekte çevirmek istediğiniz belgelerin içeriğini temsil etmelidir. Ayarlama verileri, üretilen çevirilerin kalitesi üzerinde önemli bir etkiye sahiptir. Ayarlama, çeviri sisteminin ayarlama verilerinde sağladığınız örneklere en yakın çevirileri sağlamasına olanak tanır. Ayarlama verilerinizde 2500'den fazla cümleye ihtiyacınız yoktur. En iyi çeviri kalitesi için, cümlelerin en temsili seçimini seçerek ayarlama kümesinin el ile seçilmesi önerilir.

Ayarlama kümenizi oluştururken, gelecekte çevrilmesini beklediğiniz cümlelerin anlamlı ve temsili bir uzunluğu olan cümleleri seçin. Gelecek çevirilerinizde beklediğiniz yaklaşık dağılımda çevirmek istediğiniz sözcükleri ve tümcecikleri içeren cümleleri seçin. Uygulamada, 7 ile 10 sözcük arasında bir cümle uzunluğu en iyi sonuçları üretir. Bu cümleler, aşırı karmaşık olmadan bükme göstermek ve önemli bir tümcecik uzunluğu sağlamak için yeterli bağlam içerir.

Ayarlama kümesinde kullanılacak cümle türlerinin iyi bir açıklaması, gerçek akıcı cümleler şeklindedir. Tablo hücreleri, şiirler, bir şey listeleri, yalnızca noktalama işaretleri veya bir cümledeki sayılar değil - normal dil.

Ayarlama verilerinizi el ile seçerseniz, eğitim ve test verilerinizle aynı tümcelere sahip olmamalıdır. Ayarlama verilerinin çevirilerin kalitesi üzerinde önemli bir etkisi vardır. Cümleleri dikkatle seçin.

Ayarlama verileriniz için ne seçeceğinizden emin değilseniz eğitim verilerini seçmeniz ve Özel Çeviri'nin sizin için ayarlama verilerini seçmesine izin verin. Özel Çevirmen'in ayarlama verilerini otomatik olarak seçmesine izin verdiğinizde, iki dilli eğitim belgelerinizdeki cümlelerin rastgele bir alt kümesini kullanır ve bu cümleleri eğitim malzemesinin kendisinden hariç tutar.

Özel Çeviri için veri kümesini test etme

Test kümesine dahil edilen paralel belgeler, BLEU (İki Dilli Değerlendirme Yedekli) puanını hesaplamak için kullanılır. Bu puan çeviri sisteminizin kalitesini gösterir. Bu puan aslında bu eğitimden kaynaklanan çeviri sistemi tarafından yapılan çevirilerin test veri kümesindeki başvuru cümleleriyle ne kadar yakından eşleştiğini gösterir.

BLEU puanı, otomatik çeviri ile başvuru çevirisi arasındaki deltanın ölçümüdür. Değeri 0 ile 100 arasında değişir. 0 puanı, çeviride başvurunun tek bir sözcüğünün görünmediğini gösterir. 100 puan, otomatik çevirinin başvuruyla tam olarak eşleşdiğini gösterir: aynı sözcük tam olarak aynı konumdadır. Aldığınız puan, test verilerinin tüm cümleleri için BLEU puan ortalamasıdır.

Test verileri, hedef dil cümlelerinin kaynak hedef çiftinde karşılık gelen kaynak dil cümlelerinin en çok istenen çevirileri olduğu paralel belgeler içermelidir. Ayarlama verilerini oluşturmak için kullandığınız ölçütlerin aynısını kullanmak isteyebilirsiniz. Ancak test verilerinin çeviri sisteminin kalitesi üzerinde hiçbir etkisi yoktur. Yalnızca sizin için BLEU puanını oluşturmak için kullanılır.

Test verileri olarak 2.500 cümleden fazlasına ihtiyacınız yoktur. Sistemin test kümesini otomatik olarak seçmesine izin verdiğinizde, iki dilli eğitim belgelerinizden rastgele bir cümle alt kümesi kullanır ve bu cümleleri eğitim malzemesinin kendisinden hariç tutar.

Bir model içindeki test sekmesine giderek test kümesinin özel çevirilerini görüntüleyebilir ve bunları test kümenizde sağlanan çevirilerle karşılaştırabilirsiniz.

Sonraki Adımlar