Apa itu dokumen paralel?

Dokumen paralel adalah pasangan dokumen yang salah satu dokumennya adalah terjemahan dari yang lain. Satu dokumen dalam pasangan dokumen berisi kalimat dalam bahasa sumber dan dokumen lainnya berisi kalimat-kalimat yang diterjemahkan ke bahasa target. Tidak masalah bahasa mana yang ditandai sebagai "sumber" dan bahasa mana yang ditandai sebagai "target" – dokumen paralel dapat digunakan untuk melatih sistem terjemahan di kedua arah.

Persyaratan

Anda memerlukan minimal 10.000 kalimat paralel unik yang disejajarkan untuk melatih sistem. Batasan ini adalah jaring pengaman untuk memastikan kalimat paralel Anda mengandung cukup kosakata yang unik untuk melatih model terjemahan yang berhasil. Untuk praktik terbaik, terus tambahkan lebih banyak konten paralel dan latih ulang untuk meningkatkan kualitas sistem terjemahan Anda. Untuk informasi selengkapnya, lihatPerataan Kalimat.

Microsoft mengharuskan dokumen yang diunggah ke Penerjemah Kustom tidak melanggar hak cipta atau kekayaan intelektual pihak ketiga. Untuk informasi lebih lanjut, silakan lihat Persyaratan Penggunaan. Mengunggah dokumen menggunakan portal tidak mengubah kepemilikan kekayaan intelektual dalam dokumen itu sendiri.

Penggunaan dokumen paralel

Dokumen paralel digunakan oleh sistem:

  1. Untuk mempelajari cara kata, frasa, dan kalimat biasanya dipetakan di antara dua bahasa.

  2. Untuk mempelajari cara memproses konteks yang sesuai tergantung pada frasa di sekitarnya. Sebuah kata mungkin tidak selalu diterjemahkan ke kata yang sama persis ke bahasa lain.

Sebagai praktik terbaik, pastikan ada korespondensi kalimat 1:1 antara dokumen versi bahasa sumber dan bahasa target.

Jika proyek Anda spesifik untuk domain (kategori), dokumen Anda harus konsisten dengan terminologi dalam kategori tersebut. Kualitas sistem terjemahan yang dihasilkan tergantung pada jumlah kalimat dalam kumpulan dokumen Anda dan kualitas kalimat. Semakin banyak contoh yang terdapat dalam dokumen Anda dengan beragam penggunaan kata yang spesifik untuk kategori Anda, semakin bagus pula pekerjaan yang dapat dilakukan sistem selama penerjemahan.

Dokumen yang diunggah bersifat pribadi untuk setiap ruang kerja dan dapat digunakan pada banyak proyek atau pelatihan yang Anda inginkan. Kalimat yang diekstraksi dari dokumen Anda disimpan secara terpisah di repositori Anda sebagai file teks Unicode biasa dan tersedia untuk Anda hapus. Jangan gunakan Penerjemah Kustom sebagai tempat penyimpanan dokumen, Anda tidak akan dapat mengunduh dokumen yang Anda unggah dalam format yang Anda unggah.

Langkah berikutnya