让机器"能听会说" 科大讯飞打造服务全人类的"中国好声音"

29.08.2014  07:04

  登录讯飞“语音云”,央视主持人为你读书讲报;开启导航软件,林志玲等明星为你播报路况;步入少数民族地区,“畅言教具”轻松实现多语种教学……日前,科大讯飞在国际语音合成大赛上成功实现“九连冠”,并在京发布新版灵犀语音助手等多款智能家庭语音产品,同时宣布启动人工智能计划“讯飞超脑”,智能语音技术再次成为社会关注的热点。

   语音王国实现“九连冠”

  “连续9年稳居世界冠军宝座,充分巩固了讯飞技术在‘语音王国’的领跑地位。 ”中科大语音及语言信息处理国家工程实验室副教授凌震华表示。日前,在国际语音合成大赛上,由科大讯飞与该实验室联合报送的参赛系统,在25项语音测试指标中11项居世界第一,取得了所有参赛系统中最好的综合表现,这是科大讯飞自2006年起第9次夺得该项赛事桂冠。

  所谓语音合成技术,就是通过机械、电子的方法产生人造语音。 “让计算机像人一样开口说话”,这正是科大讯飞创业之初的梦想。早在十八世纪,人类就发明机械式语音合成器,用风箱模拟肺部、簧片模拟声带,以皮革制成的共振腔模拟声道,通过改变共振腔的形状,合成出不同的元音。 1939年,美国贝尔实验室首次制作出一个电子合成器;上世纪90年代,随着计算机技术的发展,语音单元挑选与波形拼接合成方法逐渐成熟并商用;二十一世纪以来,语音合成技术逐步达到真人说话水平,嵌入式语音芯片广泛应用于各种电子产品。

  当前,智能语音技术已成为发达国家竞争的热点和焦点。作为国际上规模最大、最具影响力的语音合成比赛,国际语音合成大赛每年都吸引众多世界知名机构参赛。在这一高手云集的国际顶级赛事上,科大讯飞一亮相便震惊国际语音学界:2006年,首次参赛就获得可懂度、自然度双项第一;2008年,更是在自然度测试中首次超过真人发音水平。

  “11项语音指标世界第一,再次证明核心技术的国际领先优势。 ”科大讯飞研究院研究员江源介绍,与往届相比,本届大赛首次将主要测试语种由英语转换到非英语语种,要求提交的合成系统包括印地语、阿萨姆语等6种印度语种,难度前所未有。但在比赛中,科大讯飞采用基于统计声学模型的单元挑选与参数合成技术方案,提出并实现基于深度神经网络的合成新方法,进一步提高了合成语音质量。最终,提交的参赛系统获得印地语合成语音相似度与可懂度、印地语英语混读合成语音相似度与自然度等11个指标的第一名。

   创新把握产业“话语权”

  “只有依靠创新实现核心技术领先,才可能在激烈的竞争中立足、生存、发展。 ”科大讯飞董事长刘庆峰始终认为,创新是企业的生命,没有创新一切免谈。

  2000年以前,中文语音产业大多控制在国外公司手中,微软、IBM、Intel等国际巨头纷纷在中国设立语音研究基地,国内语音专业优秀毕业生基本上全部外流。“中文语音技术应当由中国人做到全球最好,中文语音产业要掌握在中国人自己手中。”本着这样的理念,科大讯飞于1999年成立,历经15年的自主创新,如今不仅抢回了中文语音产业“话语权”,占有中文语音技术市场60%以上份额、语音合成产品市场70%以上份额,而且将智能语音技术做到了全球最高水平,成为亚太地区最大的语音上市公司,产品遍及电信、金融、教育等诸多领域。

  强大的核心技术和语音资源,是获得“九连冠”的关键。中科大副教授凌震华表示,仅就语音合成而言,科大讯飞2006年首次提出基于统计声学模型的单元挑选语音合成方法,已成为业界普遍采用的方法。近年来,深度学习技术成为机器学习、人工智能、信号与信息处理等领域的研究热点,讯飞又率先将该技术应用于语音合成,有效地提升了语音合成的音质与自然度。在资源上,讯飞目前拥有40余个专业发音人音库、500人左右的常驻语音数据处理团队,背后还拥有一个庞大的在线平台。常年合作的中国社科院语言所等专家资源,在全国更是独一无二。

  “我们的事业影响着中国的未来。 ”这是科大讯飞人的格言。凭借自主创新的力量,科大讯飞2003年、2011年两度获“国家科技进步奖”。 2010年,讯飞在全球率先推出能同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台——讯飞语音云,这一技术的实现比苹果公司的“siri智能语音助手”整整提前一年。刘庆峰介绍,新版语音云又增加了方言、人脸、手势、声纹识别等多个创新功能,用户已突破3亿人、合作伙伴或开发者超过4万家,不仅牢牢把握了民族语音产业先机,对国家信息安全也具有重要战略意义。

   智能家庭迎来“新声活”

  无论开车、看电视,还是玩手机,动动嘴就能“下命令”,实现与智能硬件的“自由沟通”……日前,科大讯飞在京举行智能家庭语音产品发布会,推出新版灵犀语音助手、新版讯飞语音云、讯飞智能音箱、智能电视“未来遥控”、声控车载等多款新产品,并启动人工智能计划——“讯飞超脑”,力争未来让机器像人脑一样学习和思考。

  在发布会现场,刘庆峰对着新版灵犀语音助手说“开一盏灯,灯光调成白色”,灵犀迅速把展示区电灯打开,并调整灯光颜色;对着灵犀说“打开空调”,此时空调自动打开,灵犀回复“空调已经开启,温度为26℃。”接着,他又对着灵犀说“打开央视新闻频道,帮我煮杯咖啡”,智能电视自动播放想看的节目,同时咖啡机也工作起来。刘庆峰透露,新版灵犀语音助手加入“智能家电”模块,通过自动成功扫描添加智能电视、智能空调、智能电灯等设备,即成功实现“声控”智能家庭,目前讯飞与美的、格力、海尔等大型家电企业均已达成合作意向。

  语音合成惟妙惟肖、语音识别持续升级、人脸识别准确度超过99%……最新上线的新版讯飞语音云,支持多语种、多音色语音合成,可以随心所欲定制个性化语音合成,且更具表现力和感染力;将深度神经网络技术应用于语音识别中,在每小时120公里车速环境下,识别率依旧超过85%,是全球唯一在如此高速环境下保持高识别率的语音技术供应商,同时在奔驰和通用全球语音测评中荣获第一名。除了基础能力持续提升外,还将国际顶尖的人脸识别技术应用于讯飞语音云,人脸识别率高达99.15%,比肉眼更准确。

  “基于类人神经网络的讯飞超脑,预期可实现世界上第一个中文认知智能计算引擎。”“讯飞超脑”计划组长江辉教授说,这一计划聚集了语音及语言信息处理国家工程实验室、清华大学、加拿大约克大学等10多位人工智能领域顶级专家,未来“讯飞超脑”不仅能听懂话,而且更能“懂你”,从而实现机器从“能听会说”到能理解、会思考的跨越。

  “自然人机交互将助推下一轮信息产业浪潮。 ”刘庆峰表示,科大讯飞今后将在继续保持核心技术国际领先的基础上,推动核心技术面向教育、面向移动互联网、面向电视、车展以及智能家居,形成“软件+硬件”“软件+服务”解决方案,推动自主产业快速成长,并着力打造国际智能语音产业园,最终在安徽形成千亿元的语音相关产业。(桂运安)