译马网:大数据时代—得语料者得天下
当前的时代是互联网的时代,也是大数据的时代,用宋清辉的话来说,“不想说一个人若拒绝大数据就去失去生命这样沉重的话题,但大数据确实在深刻改变着你和我的未来”。可以预见的是,大数据的到来将引起一场翻译界的“工业革命”。
传统的机器翻译由于缺乏大数据的支持,只是按照既定的语法规则将词汇组织起来,忽略了语言的自然性和多义性。因此,翻译结果很生硬,并且通常不符合语言的习惯表达方式,基本不能直接使用。对于简单的句式,或许机器翻译可以轻而易举地将其翻译出来,但一旦遇到较为复杂的或是较为专业的语句,其往往无能为力。因此,机器翻译在现实中往往只能起到词典的作用,很难给人们的生活带来实际意义上的便利。
而在大数据时代,译马网完美地解决了这个问题。其撬起整个地球的一个重要支点就是语料库的运用。运用大数据技术通过对原始语料的分析整理,得到有用的语料。再将语料作为机器翻译的训练素材,结合机器翻译已有的语法规则和词汇量,使机器翻译的结果不断修正,最终达到与人工翻译的效果一样,符合语言表达习惯、句子简洁易懂、内容通畅。因此具有很高的实用价值。
或许这是存在一定难度的,事实上,运用平行语料库(parallel corpus)、多语语料库(multilingual corpus)和可比语料库(comparable corpus)可以发现和确定用常规方法很难发现的语义特征,研究文本的风格、语言习惯,如语言冗余度、词汇共现(co-occurrence)、规范程度、连贯形式、句法模式,甚至标点符号的使用特征,并帮助我们选择相应的翻译策略,这已经在译马网试验成功。语料库的运用在当前互联网科技高速发展的形势下已经成为现实,甚至已经开始对翻译行业产生影响。
这也就是说,大数据引入以及充分利用将人的性格和特点赋予了机器翻译。基于大数据语料库的机器训练,使机器翻译能够准确把握人类语言的习惯,从而将这种习惯运用到翻译当中去,使得出的结果更准确,也更能够贴近实际的需求。在某种意义上,这已经使机器成为人或者说至少在表面上使其拥有了人的想法。从理论上来讲,一旦该技术发展成熟,市场上对于人工翻译的需求将不复存在或至少是大打折扣。