阿里首次公布自然语言处理成果

发布时间:2017-07-20 16:25:17 | 来源:机器之心 | 作者:佚名 | 责任编辑:胡俊

循环神经网络是应用最为广泛的序列数据神经网络建模方法。相对于传统的前向神经网络,循环神经网络的主要特点在于,在每个时刻,其输出不仅要依赖于当前时刻的输入,还要考虑上一时刻的模型「状态」。通过对历史状态的依赖,RNN 模型能够有效的表征文本数据的上下文依存信息。但是,RNN 的「宏伟目标」-有效管理任意跨度的信息传递-往往使得其难以有效的训练,进而也限制了其在具体应用中的效果。


另一被广泛应用的语义编码模型是 CNN 模型。传统的 CNN 建模通常用于解决图像的特征提取。但近年来,众多学者尝试将其应用到文本处理领域。CNN 的模型结构来源于对人类视觉神经信号处理机制的模拟。与文本数据不同的是,图像数据通常被看做一个二维数据结构,而相应的 CNN 模型也更适于提取其中的「局部」特征。但与图像数据相似的是,文本数据中的上下文依赖通常可以被简化为一种「局部」信息,即传统 NLP 领域中的 N-gram 语言模型:文本中一个词的具体含义,通常只和上文有限距离内的几个词相关。

1  2  3  4  5  6  7  8  9