《深度学习入门》(D2L.ai)是一本开源教材,通过交互式Jupyter笔记本提供PyTorch/JAX/TensorFlow/MXNet自包含代码实现。目前全球400多所高校采用该教材,由此形成了多语言翻译社区。为高效处理中、日、韩等语言版本,开发了基于某机构翻译服务的自动化机器翻译同步系统(AMTS)。

框架概述

系统利用主动定制翻译(ACT)功能,通过并行数据实时定制翻译输出。并行数据包含源语言文本与目标语言译文的对应示例。AMTS框架包含多个并行处理的子管道,每个子管道处理一种语言对(如英-中、英-西)。

核心处理流程

  1. 准备并行数据:从人工翻译版本中提取文本段落(忽略代码和图片),构建中英对照CSV文件
    1. 批量翻译作业:通过CreateParallelData API创建并行数据资源,使用StartTextTranslationJob启动批量异步翻译
    1. 输出存储:翻译结果存储在对象存储服务中,格式为<目标语言>.<源文件名>

翻译质量优化

通过BLEU分数评估显示:

  • 使用并行数据的翻译质量显著优于传统方法(英中翻译平均BLEU从0.536提升至0.571)
    • 细粒度的句子级并行数据比段落级效果更优(英中平均BLEU从0.571提升至0.639)
    • 在英西翻译测试中,相同主题("机器学习")的并行数据使BLEU从0.792提升至0.824

最佳实践

  1. 构建句子级而非段落级的并行数据对
    1. 确保并行数据与待翻译文档具有相同主题语境
    1. 对专业术语较多的内容需准备领域特定的并行数据 系统目前支持HTML格式文档的批量处理,未来计划扩展更多语言对的支持。测试表明翻译结果具有较好的语法正确性和自然度。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)