该负责人介绍,去年,百度探索翻译本土化,推出粤语和普通话互译,用户反馈不错。今年3月底,百度文言文翻译正式上线。
百度文言文翻译的基本原理,是机器在互联网上收集海量文言文翻译数据,进行模仿学习。“整个过程看似简单,实则复杂。”该负责人说,古文不单是“之乎者也”,不仅常涉及一词多义,句子间的韵律也非常重要。
他举例,“从前有个山,山里有座庙,庙里有个老和尚,喜欢讲故事”这段话,最开始机器的翻译结果是“昔有山,山中有座庙,寺中有一老僧,好讲故事”,“读起来缺失古文的流畅。”后来,团队收集了大量文笔优美的文言文名篇,如王勃的《滕王阁序》、《诗经》,让翻译系统学习,完成韵律模型。现在,输入这段文字,得到的结果是“昔有座山,山有座庙,庙有老僧,好讲故事”。
该负责人说,相较于英文翻译,现代文翻译为文言文的语料很少。比如现代文中的一些新词、热词,在古代就没有对应说法。为此,他们聘请专人进行质量评估,帮助机器翻译优化。比如,“亲爱的”这个词,百度翻译将其翻译为“卿卿吾爱”,“就是通过人工干预的方法实现的。”
他说,百度开发文言文翻译,一是继承和发扬传统文化,二是帮助学生学习古文。“有了这样一个好玩的工具,文言文不再晦涩难懂。”
舒婷《致橡树》节选:
我如果爱你
绝不像攀援的凌霄花,
借你的高枝炫耀自己;
我如果爱你
绝不学痴情的鸟儿,
为绿荫重复单调的歌曲
百度文言文翻译:
我若爱子
不如攀援之凌霄花,
借汝之高自矜;
我若爱子
不学痴之鸟,
为阴复单之歌