你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

创建和管理训练文档

利用自定义翻译器,可以生成能够反映业务、行业和特定领域术语和风格的翻译模型。 训练和部署自定义模型很简单,不需要任何编程技能。 利用自定义翻译器,可以上传并行文件、翻译记忆库文件或 zip 文件。

并行文档是成对的文档,其中一个(目标)是另一个(源)的翻译。 成对文档中的一个包含源语言的句子,另一个文档则包含已翻译为目标语言的那些句子。

在上传文档之前,请查看文档格式和命名约定指南,以确保自定义翻译器支持你的文件格式。

如何创建文档集

查找领域内高质量数据通常会是一项困难的任务,它会因用户分类而异。 以下是一些你在评估可能获得的数据时可以问自己的问题:

  • 企业在使用人工翻译的过程中,往往积累了大量的翻译数据。 贵公司是否有可供使用的过往的翻译数据?

  • 你是否有大量的单语数据? 单语数据是指只使用一种语言的数据。 如果有,你能得到这些数据的翻译吗?

  • 你能抓取联机门户来收集源句并合成目标句吗?

每种文档类型的训练材料

作用 遵循的规则
双语训练文档 告知系统你的术语和风格。 解放思想。 任何领域内的人工翻译都比机器翻译好。 根据你的需要添加和删除文档,尝试提高 BLEU 分数
优化文档 训练神经机器翻译参数。 严格要求。 编写它们,使其能以最佳方式表示你将来要翻译的内容。
测试文档 计算 BLEU 分数 严格要求。 编写测试文档,使其能以最佳方式表示你将来计划翻译的内容。
短语字典 强制执行给定的翻译 100% 的时间。 施加限制。 短语词典区分大小写,任何列出的单词或短语都按照你指定的方式进行翻译。 在许多情况下,最好不使用短语字典,而是让系统自己学习。
句子字典 强制执行给定的翻译 100% 的时间。 严格要求。 句子词典不区分大小写,适用于常见的领域内的短句子。 若要进行句子字典匹配,提交的整个句子必须与源字典条目匹配。 如果只是句子的一部分匹配,则该条目不匹配。

如何上传文档

文档类型与创建项目时选择的语言对关联。

  1. 登录到自定义翻译器门户。 这时会加载你的默认工作区并显示以前创建的项目的列表。

  2. 选择所需项目的名称。 在默认情况下,“管理文档”边栏选项卡处于选中状态,并且会显示以前上传的文档的列表。

  3. 选择“添加文档集”,然后选择文档类型:

    • 训练集
    • 测试集
    • 优化集
    • 字典集:
      • 短语字典
      • 句子字典
  4. 选择“下一步”。

    演示文档上传链接的屏幕截图。

    注意

    选择“字典集”会启动“选择字典类型”对话框。 选择一个字典类型并选择“下一步”

  5. 从单选按钮中选择你的文档格式。

    “上传文档”页面的屏幕截图。

    • 对于“并行文档”,填写 Document set name 并选择“浏览文件”,以选择源文档和目标文档。
    • 对于“翻译记忆库 (TM)”文件或“利用 ZIP 上传多个集”,选择“浏览文件”,以选择该文件
  6. 选择“上传”。

此时,自定义翻译器会处理你的文档并尝试按上传通知中的指示提取句子。 在完成处理后,你就会看到上传成功的通知。

演示“上传文档处理”对话框窗口的屏幕截图。

查看上传历史记录

在工作区页中,可以查看所有上传文档的历史记录详细信息,例如文档类型、语言对、上传状态,等等。

  1. 自定义翻译门户工作区页中,单击“上传历史记录”选项卡查看历史记录。

    显示“上传历史记录”选项卡的屏幕截图。

  2. 此页显示以往所有上传内容的状态。 其中按最近到最早的时间顺序显示上传内容。 对于每个上传内容,此页会显示文档名称、上传状态、上传日期、上传的文件数、上传的文件类型、文件的语言对以及创建者。 可以使用筛选器按名称、状态、语言和日期范围快速查找文档。

    显示“上传历史记录”页的屏幕截图。

  3. 选择任一上传历史记录。 在上传历史记录详细信息页中,可以查看上传过程中上传的文件、上传文件的状态、文件的语言和错误消息(如果上传内容包含任何错误)。

后续步骤