“有木有、我勒个去、神马都是浮云”,这些网络流行语,如何能更准确翻译?记者以“神马都是浮云”为例,百度翻译为“Everything is nothing”,比较接近原意,而谷歌则翻译成了“Horses are clouds of God”,基本不知所云。与百度翻译相比,谷歌翻译明显体现出本地化不足的特点。而负责组队实现百度翻译技术攻关的则是百度基础技术首席科学家王海峰。
王海峰和他的团队抓取的双语语料很快也达到了1000万句的规模。但是很快问题接踵而来:翻译质量远比预期要低。例如“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了“good good study,day day up”。经过1个多月的攻关,王海峰和整个团队利用新的技术手段将1000万语料过滤到400万左右,大量低质语料已经在过滤中被淘汰,机器翻译的质量得到了大幅提高。