2018百度AI开发者大会引业界瞩目吴甜详解多元语义知识与自然语言理解

2018-07-06 14:56 出处：其他作者：佚名责任编辑：maoyuanwen
寰俊濂藉弸 QQ濂藉弸鏂版氮寰崥 QQ绌洪棿鑵捐寰崥
收藏成功，去查看收藏>>

2022年无线吸尘器选购攻略，高性价比吸尘器推荐，看这一篇就够了去看看

　　7月4日，在百度AI开发者大会（Baidu Create 2018）上，百度正式发布以“多模态深度语义理解”为核心的百度大脑3.0。当日下午，百度大脑论坛召开，百度AI技术平台体系执行总监吴甜为开发者带来了百度语言与知识技术相关的最新进展，并从多元语义知识图谱，阅读理解、对话理解三方面，对百度大脑3.0中的语言与知识技术部分进行了解读。

　　吴甜介绍，百度在语言与知识技术领域进行了非常深入的布局。知识图谱是AI系统的基础能力，NLP、语音、视觉以及各种广泛AI应用，都越来越依赖知识。语言理解是机器与人交流的首要基础能力。语言生成是机器基于知识、结合场景进而适当地生成语言的能力。在这些技术的基础上，形成对话系统、阅读理解、机器翻译、智能写作4个技术系统。这些技术在应用过程中，不断通过使用场景和用户的反馈，通过学习机制进行学习和进化。

　　“知识图谱是人工智能系统非常基础的能力，”吴甜介绍。目前，百度知识图谱已发展为复杂、多元、全面的多元语义知识图谱，包含实体图谱、行业图谱、事件图谱、关注点图谱、多媒体图谱。以近期热门的世界杯为例，一个对世界杯赛程感兴趣的用户通过百度搜索，可以看到基于多元语义知识图谱整合得很好的信息页。在具体的比赛页中可以看到比赛发生时间，参赛双方的首发阵容，整个比赛当中的黄牌、换人等子事件，以及技术分析。比赛的精彩视频基于视频理解、语言理解与实体进行关联，可以为用户整合每场比赛相关的精彩视频集锦。知识图谱还可以用于问答，经过实体图谱上的检索和计算，机器回答出获得世界足球先生最多的球员是C罗和梅西。

　　百度阅读理解基础能力以知识为基础，目前已经对相当于6万个国家图书馆藏书的文本数据进行综合的篇章理解，并由此积累了主题分析、事件分析和情感分析等非常丰富的知识。积累大量文本数据后，面对不同的任务时可以有不同的知识学习和阅读理解引擎。在智能问答任务上，百度阅读引擎每天响应用户的2亿次阅读问答请求；在智能推荐任务上，百度服务着中国83%以上的网民。在应用过程中，百度积累了大量有价值的数据和反馈，这些信息将不断地推进模型的迭代更新。

　　在对话理解方面，百度也交出了亮眼的成绩单。在去年的百度AI开发者大会上，百度发布了UNIT1.0，为开发者提供理解与交互技术的平台。开放一年以来，UNIT平台上已有超过1万名的开发者，累计创建1.3万项技能，共发起33万次启发式训练和8万个模型训练。这些已经累积的训练数据有2.4亿条，每一条训练数据都可以理解为是一个知识，如果让人类客服学习这些知识，以人类客服每天可以学习100个句式效率来计算，这些知识足够人类客服学习6000年。

　　此次，升级版的UNIT2.0正式发布。UNIT2.0进一步增强冷启动能力，提供一条训练数据“去北京站最快的路”，它就能通过学习，泛化识别上百条和去某个地点相关的各种各样的语言表述方式。在Bot启动之后，UNIT2.0还为开发者提供一种能力，让Bot可以从用户的对话中主动发现自身理解能力的局限，并从中持续学习。未来的对话系统训练师，将不再需要进行繁琐的数据标注工作。想要优化系统？你只需要“跟它聊聊”。同时，UNIT2.0正式开源了百度内部使用的对话管理与任务执行框架，它可无缝对接 UNIT 云端对话理解能力，让开发者快速灵活的搭建对话产品。

　　据悉，此次百度AI开发者大会上令人印象深刻的智能外呼、百度地图语音助手，都是基于UNIT 2.0实现的。

　　除了UNIT2.0，吴甜还在现场宣布开放实体标注、文本纠错、对话情绪识别、语音翻译SDK、评论观点定制化、翻译API定制化等。据了解，百度语言与知识开放技术具备三个特点，分别是增加预置能力、提供更强的定制化能力和更多的解决方案，百度希望在真实的应用场景当中，将这些技术能力组合起来，惠及开发者。未来，百度还将开放更多产品和技术能力，与开发者共同推动AI产品落地。

　　“语言与知识就像空气一样环绕在我们周围，虽然无形但很重要，”吴甜表示，语言与知识技术已经被广泛应用于不同的行业、场景中，百度希望能为开发者和企业带来更多更有用的知识和先进的AI技术，一起用科技改变人们的生活。