Pasangan kalimat dan penyelarasan dalam dokumen paralel

Setelah dokumen diunggah, kalimat yang ada dalam dokumen paralel dipasangkan atau disejajarkan. Penerjemah Kustom melaporkan jumlah kalimat yang dapat dipasangkan sebagai Kalimat yang Diratakan di setiap himpunan data.

Proses pemasangan dan penyelarasan

Penerjemah Kustom mempelajari terjemahan kalimat satu kalimat sekaligus. Layanan ini membaca kalimat dari teks sumber, lalu terjemahan kalimat ini dari teks target. Kemudian menyelaraskan kata-kata dan frasa-frasa dalam dua kalimat ini satu sama lain. Proses ini memungkinkannya membuat peta kata dan frasa dalam satu kalimat ke kata dan frasa yang setara dalam terjemahan kalimat. Penyelarasan mencoba memastikan sistem berlatih pada kalimat yang merupakan terjemahan satu sama lain.

Dokumen yang telah disejajarkan sebelumnya

Jika Anda tahu bahwa Anda memiliki dokumen paralel, Anda dapat mengambil alih perataan kalimat dengan menyediakan file teks yang telah disejajarkan sebelumnya. Anda dapat mengekstrak semua kalimat dari kedua dokumen ke dalam file teks, yang diatur satu kalimat per baris, dan mengunggah dengan ekstensi .align. Ekstensi .align memberi sinyal ke Penerjemah Kustom bahwa penyelarasan kalimat harus dilompati.

Untuk hasil terbaik, coba pastikan bahwa Anda memiliki satu kalimat per baris dalam file Anda. Tidak memiliki karakter baris baru dalam kalimat—itu menyebabkan perataan yang buruk.

Jumlah kalimat minimum yang disarankan

Agar pelatihan berhasil, tabel berikut menunjukkan jumlah kalimat minimum yang diperlukan di setiap jenis dokumen. Batasan ini adalah jaring pengaman untuk memastikan kalimat paralel Anda mengandung cukup kosakata yang unik untuk melatih model terjemahan yang berhasil. Pedoman umum adalah dengab memiliki lebih banyak kalimat paralel dalam domain dari kualitas terjemahan manusia akan menghasilkan model berkualitas tinggi.

Jenis dokumen Jumlah kalimat minimum yang disarankan Jumlah kalimat maksimum
Pelatihan 10,000 Tidak ada batas atas
Penyetelan 500 2.500
Pengujian 500 2.500
Kamus 0 250.000

Catatan

  • Pelatihan tidak akan dimulai dan akan gagal jika jumlah kalimat minimum 10.000 untuk Pelatihan tidak terpenuhi.
  • Penyetelan dan Pengujian bersifat opsional. Jika Anda tidak memberikannya, sistem akan menghapus persentase yang sesuai dari Pelatihan untuk digunakan untuk validasi dan pengujian.
  • Anda dapat melatih model hanya dengan menggunakan data kamus. Silakan lihat Apa itu Kamus.
  • Jika kamus Anda berisi lebih dari 250.000 kalimat, fitur Penerjemah Dokumen kami adalah pilihan yang lebih baik. Silakan merujuk ke Penerjemahan Dokumen.
  • Pelatihan berlangganan gratis (F0) memiliki batas maksimum 2.000.000 karakter.

Langkah berikutnya