Istilah kunci Penerjemah Kustom

Tabel berikut ini menyajikan daftar istilah kunci yang mungkin Anda temukan saat menggunakan Penerjemah Kustom.

Kata atau Frasa Definisi
Bahasa Sumber Bahasa sumber adalah bahasa awal yang ingin Anda konversi ke bahasa lain ("target").
Bahasa Target Bahasa target adalah bahasa yang Anda inginkan untuk disediakan oleh terjemahan mesin setelah menerima bahasa sumber.
File Ekabahasa File ekabahasa memiliki satu bahasa yang tidak dipasangkan dengan file lain dari bahasa yang berbeda.
File Paralel File paralel adalah kombinasi dari dua file dengan teks terkait. Satu file memiliki bahasa sumber. File lain memiliki bahasa target.
Perataan Kalimat Himpunan data paralel harus memiliki kalimat yang diratakan dengan kalimat yang mewakili teks yang sama dalam kedua bahasa. Misalnya, dalam file paralel sumber, secara teori kalimat pertama harus dipetakan ke kalimat pertama dalam file paralel target.
Teks Rata Salah satu langkah terpenting dari validasi file adalah meratakan kalimat dalam dokumen paralel. Hal-hal diekspresikan secara berbeda dalam bahasa yang berbeda. Selain itu, bahasa yang berbeda memiliki urutan kata yang berbeda. Langkah ini berfungsi untuk meratakan kalimat dengan konten yang sama sehingga dapat digunakan untuk pelatihan. Perataan kalimat yang rendah menunjukkan mungkin ada yang salah dengan salah satu atau kedua file.
Pemutus/Bukan Pemutus Kata Pemutus kata adalah fungsi menandai batas antar kata. Banyak sistem penulisan menggunakan spasi untuk menunjukkan batas antar kata. Bukan pemutus kata mengacu pada penghapusan penanda yang terlihat yang mungkin telah disisipkan di antara kata-kata pada langkah sebelumnya.
Pemisah Pemisah adalah cara kalimat dibagi menjadi beberapa segmen atau membatasi margin antara kalimat. Misalnya, dalam bahasa Inggris spasi membatasi kata, titik dua dan titik dua membatasi klausa, serta titik membatasi kalimat.
File Pelatihan File pelatihan digunakan untuk mengajarkan sistem penerjemahan mesin cara memetakan dari satu bahasa (sumber) ke bahasa target (target). Semakin banyak data yang Anda berikan, semakin baik performa sistem.
Menyetel File File-file ini sering kali secara acak berasal dari kumpulan pelatihan (jika Anda tidak memilih kumpulan penyetelan). Kalimat dipilih secara otomatis dan digunakan untuk menyempurnakan sistem dan memastikan bahwa kalimat tersebut berfungsi dengan baik. Jika Anda ingin membuat model terjemahan tujuan umum dan membuat file penyetelan Anda sendiri, pastikan itu adalah kumpulan kalimat acak di seluruh domain
File Pengujian File-file ini sering kali berasal dari file, dipilih secara acak dari set pelatihan (jika Anda tidak memilih set pengujian apa pun). Tujuan dari kalimat-kalimat ini adalah untuk mengevaluasi akurasi model terjemahan. Untuk memastikan sistem secara akurat menerjemahkan kalimat ini, Anda mungkin ingin membuat set pengujian dan mengunggahnya ke penerjemah. Melakukannya akan memastikan bahwa kalimat digunakan dalam evaluasi sistem (pembuatan skor BLEU).
File kombo Jenis file di mana sumber dan kalimat yang diterjemahkan ada dalam file yang sama. Format file yang didukung (TMX, XLIFF, XLF, ICI, dan XLSX).
File arsip File yang memuat file lainnya. Format file yang didukung (zip, gz, tgz).
Skor BLEU BLEU adalah metode standar industri untuk mengevaluasi "presisi" atau akurasi model terjemahan. Meskipun ada metode evaluasi lain, Microsoft Translator mengandalkan metode BLEU untuk melaporkan akurasi kepada Pemilik Proyek.