阿里首次公布自然语言处理成果
发布时间:2017-07-20 16:25:17 | 来源:机器之心 | 作者:佚名 | 责任编辑:胡俊阿里巴巴AI Labs 将在7月5日发布第一款智能音箱设备的消息引发了国内极大的关注,但读者们不仅不熟悉阿里巴巴AI Labs,对阿里自然语言处理方面的成果是不是也不理解?这篇文章介绍了阿里巴巴被国际数据挖掘顶会KDD2017收录的一篇自然语言处理(NLP)的相关论文《一种新的语义编码模型及其在智能问答及分类中的应用》。
上周,关于阿里巴巴成立 AI Labs 的消息不胫而走。事实上,该机构在 2016 年低调成立,主要负责阿里巴巴集团旗下消费级 AI 产品研发,与iDST的定位有所区别。从机器之心收到的发布会邀请函及其他公开消息看,7 月 5 日,该机构将发布第一款实体产品智能音箱设备,它能够理解中文语音指令,还能让阿里巴巴的用户在淘宝上购物,短期内仅面向中国市场发售。
与此同时,这次为阿里巴巴智能音箱提供技术支持的团队也首次曝光了其自然语言处理成果。一篇自然语言处理(NLP)的相关论文《一种新的语义编码模型及其在智能问答及分类中的应用》被国际数据挖掘顶会 KDD2017 收录。在自然语言处理的两个核心应用场景------文本分类和智能问答上,阿里巴巴这套「即刻唤醒,即刻识别」神经网络模型的智能问答准确率相比微软的wikiqa数据集和 IBM 的insuranceqa数据集提升了 2-4%,是目前业内最高水准。
该论文的作者、阿里巴巴人工智能实验室资深算法工程师王成龙对机器之心谈到这项技术的挑战,「初期相关模型训练所需的语料较缺乏,在开发的同时,我们积累起来一批独有、海量的中文语料,有力支持了我们的模型训练。神经网络模型的计算复杂度比较高,性能问题是线上应用的一个主要瓶颈,这一方面,我们针对神经网络模型的线上部署做了很多的优化工作,保证在大并发请求下依赖能有较好的性能。
另一方面,基于神经网络的 NLP 方法都依赖分词,英文的分词是天然的,而中文是以「字」为单位,这也使新品技术开发的难度有所提高。王成龙说:「英文的句子结构则更加清晰,而汉语重意合而不重形式,句子结构比较松散,中文相关标准语料集的缺失也是一大瓶颈。
KDD 2017 将于今年 8 月 13 日召开