王海峰:他打造了“百度翻译”
发布时间:2012-01-05 08:47:16 来源:ACME 转载 字体: 大 中 小
2011年8月,在北京大学软件与微电子学院2011级新生开学典礼上,王海峰以新任语言信息工程系主任的身份,给新生们作了题为“互联网时代的自然语言处理”的学术报告。至此,北大虚位以待2年之久的语言信息工程系的系主任人选终于尘埃落定。
王海峰在计算机领域是一位声名显赫的人物。因为研究的突出成就,2010年11月,王海峰当选为“国际计算语言学学会(ACL)副主席,在ACL 近50年的历史上,他是第一位当选副主席的华人。
“这不仅是国际同行对我本人的认可,也是他们对中国及华人学者在本领域贡献的认可,另外,这也是对百度这样的中国企业的认可。”王海峰表示。
王海峰和计算机结缘已经有20余年的时间。1989年秋,王海峰以优异的成绩考入哈尔滨工业大学学习计算机,就正式与计算机打上了交道。
王海峰告诉记者,他的父母都是上个世纪60年代的大学生,父亲毕业于清华大学,母亲毕业于哈尔滨医科大学,受家庭、学校及周围环境的影响,他从小就立志成为一名科学家。
还在哈尔滨工业大学读本科时,王海峰就已经进入机器翻译这个充满挑战的领域。在上硕士期间,仅用一年就开发出了当时在国家“863”评测获得第一的汉英机器翻译系统,并获得了部级科技进步奖。
1999年初,从哈尔滨工业大学博士毕业时,已经学有所成的王海峰成了很多单位、包括一些重点研究机构争抢的香饽饽。面对众多诱人的选择,王海峰果断地选择了当时刚刚成立不久的微软中国研究院。2010年1月,王海峰加盟百度,开始了自己职业生涯的新篇章。
随后,百度就组建了王海峰博士领衔的机器翻译核心研发团队。由于百度拥有超大规模的双语语料,作为机器翻译领域的顶级专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,对双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。
王海峰和他的团队抓取的双语语料很快也达到了1000万句的规模。但是很快问题接踵而来:翻译质量远比预期要低。例如“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了“good good study,day day up”。经过1个多月的攻关,王海峰和整个团队利用新的技术手段将1000万语料过滤到400万左右,大量低质语料已经在过滤中被淘汰,机器翻译的质量得到了大幅提高。
从开始组建团队,到百度翻译正式上线,仅用了1年多时间。如今依托于百度在中文互联网技术上的优势,百度翻译对中文网络语言有着独特的应对能力。
对王海峰来说,就百度而言,这还只是一个开始。因为除了机器翻译,王海峰在百度还负责自然语言处理、数据收录、数据挖掘、机器学习、推荐与个性化、语音技术等支撑着百度各种产品的众多基础技术,他也希望自己未来在这些领域的研究和产品开发中能够有更大的成就。