搜狗科学家陈伟:稳居智能语音第一名,搜狗杀手锏是什么?

2018-04-27 18:49 出处:其他 作者:佚名 责任编辑:maoyuanwen

  不论是Siri、Cortana等语音助手的同台竞技,还是亚马逊Echo掀起的智能音箱市场的激烈角逐,在来势汹汹的AI浪潮里,各大巨头不约而同地把技术落地的目光,投到了智能语音上。
 
  4月26日,GMIC洞见·人工智能公开课上,搜狗语音交互技术中心语音首席科学家,语音技术负责人陈伟,与全球顶尖数据科学家、人工智能工程师一起,从搜狗智能语音的进击之路聊起,分享了他对于智能语音的深度思考。


 
  语音听写、语音翻译、语音交互,都有哪些落地场景?
 
  陈伟介绍说,他们的团队主要在做的有三块内容,一是语音听写,二是语音翻译,三是语音交互。其中,语音听写技术已逐步走向实用,“搜狗从2012年就开始做语音识别,并希望把这项技术落地到更多场景中去,让用户输入更有效率。”陈伟举例到,比如演讲听写、视频字幕直播、法院庭审、记者采访、小说写作、医疗病例记录等众多场景,应用语音识别进行辅助输入,能极大地提升我们的工作效率——在我们说话同时,机器就能直接将其转化为文字,而无需我们费力打字或书写。



  如果将语音识别与机器翻译结合,就诞生了语音翻译技术。“这项技术可以更好地服务跨语言交流,比如在出国旅行、国际交流、演讲同传、视频字幕等等。”陈伟举了一个更为具体的例子,“目前,在会议场景中,让机器做同传已经比较成熟。当一位演讲者在台上使用中文演讲时,我们的搜狗机器同传可以在屏幕上实时显示中文内容,并同步翻译为英文。”
 
  据了解,搜狗机器同传在2016年第三届世界互联网大会(WIC)上首发,并在2017年第四届WIC上,升级为2.0版本,加入了语音合成的能力。而就在此次GMIC大会的主会场,我们也能看到搜狗机器同传的身影,在每位中外嘉宾演讲的同时,都兢兢业业地为听众呈现相应的中英实时字幕。

 
  “在语音交互方面,我们会更加关注具体场景,希望做任务导向的语音助理。”陈伟进一步说明,“比如在可穿戴移动设备、车载、移动家居等具体场景中,做语音助手,针对刚需场景提供更自然的交互体验。当语音交互收敛到具体场景中,用户体验也会极大优化。”
 
  大量的落地场景背后,隐藏技术又有哪些?
 
  “2010年后快速兴起的深度学习,变革了整个行业。”陈伟现场聊起深度学习带来的变化,“随着深度学习技术发展,以及大数据驱动,数据和算法相得益彰,把实验室中的技术,从不可用变成可用或者好用状态。”
 
  这三点至关重要:超大规模的语音数据、复杂的深度学习算法、超强的运算平台。数据量确保了语音识别的准确率,陈伟说,“在2012年搜狗语音识别技术刚上线时,搜狗的语音识别数据在500小时左右,而在2016年这个数据规模就达到了几万小时。而现在我们的语音识别准确率已经达到97%。”在算法上,搜狗已经能做到50多层CN的网络。
 
  而在有了复杂的算法和超大数据以后,如何在可控的时间内得到想要的模型?怎么样快速对数据进行准确的学习?这就依赖于一个强大的运算平台。“搜狗语音深度学习平台EVA,与ARM的ACL相比,平均性能加速比达1.62;在搜狗自有任务下,如识别、翻译等,加速比更是达到了3.97。”



  技术“炫酷”,但智能语音存在的问题都解决了吗?
 
  答案是:没有。真正想把好的技术应用到使用场景上还是有很多坑要踩,有很多问题要去解决。陈伟现场分享了针对语音交互、个性化语音合成、离线翻译中碰到的困难,搜狗是如何做的。
 
  以语言交互为例,“今天我们说语音识别准确率达到97%,是在没有强噪音、口音的情况下。一旦我们与麦克风距离稍远,或者处在车上等嘈杂环境中,就会干扰机器的识别能力。”针对这一点,搜狗去做回声消除、解混响、声源定位,做麦克风硬件技术。陈伟说,“我们希望把真正可用的技术做起来,而它一定是软硬件结合的。”
 
  演讲最后,陈伟抛出了一个问题,“如何判断当期的AI产品是否足够好?”他现场给出了三个指标,一是产品命中用户刚需;二是简洁有趣且方便;三是稳定。陈伟强调说,“当我有好的AI技术能力,想要落地的时候,我一定要让它尽可能地满足用户的预期,这样用户体验才会好,也才能被称为是一个好的产品。”

最新资讯离线随时看 聊天吐槽赢奖品
文章页底部微信二维码