我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语境机制 >

【原】基于LSTM的文本语境依赖特征表示方法的计算机研究

归档日期:07-02       文本归类:语境机制      文章编辑:爱尚语录

  本文是一篇计算机论文。本文主要研究基于LSTM的文本上下文相关特征的文本表示方法。本主题将文本上下文依赖性细化为单词 - 单词,实体方面 - 意见文本和主题 - 意见文本,三组特征依赖关系,其中单词取自意见文本数据,而实体方面和主题是意见文本。单独,通常不会在评论文本中显示信息,因此,本文将单词视为内部依赖,而实体咨询文本,主题意见文本作为外部依赖。

  随着移动通信网络环境的升级和智能移动设备的普及,用户可以使用大量的零碎时间来上网。截至2018年6月,仅中国的互联网用户就达到了80200万,其中使用手机的互联网用户比例为98.25%。每分钟由如此庞大的用户群生成的数据是巨大的。除了以简洁明了的语言报道这些消息之外,还有关于这一事件的公众舆论。如果能够有效地理解和分析这些包含用户意见的数据,这将成为进行相关决策工作的重要参考。从视觉角度可以看出,使用手动处理方法挖掘大量非结构化的互联网文本数据通常会产生更高质量的信息,但它消耗了大量的人力资源,而且可以手动处理的数据量是非常有限。同时,由于计算机不能直接理解文本信息的含义,因此有必要找到一种形式化的表示方法,它可以反映文本数据的主题,用户意见等。

  基于上述要求,面向文本的表示学习方法的研究已经变得流行。文本表示是自然语言处理中的关键技术,是自动文本意见挖掘研究任务中非常重要的基础工作。除了有效地学习文本中包含的语义信息之外,高性能文本表示方法还应该能够学习文本上下文中包含的结构特征信息。同时,高质量的文本表示是提高文本意见挖掘效果的基础。

  在早期,许多研究学者主要从统计学的角度分析问题,主要是基于向量空间模型将文本形式化为计算机可计算信号。在文本建模过程中,假定文本是一组特征项;然后,使用可以表示要素项权重的值替换要素项。在上述处理之后,可以容易地将文本形式化为数字向量。 。其中,基于单词bag模型结合独特热编码的文本表示方法是上述方式的代表性方法。该方法生成的文本表示具有离散,稀疏,高维等特征。这些特征在学习短文本向量表示的过程中尤为明显。虽然该方法在早期信息检索领域取得了良好的效果,但在文本意见挖掘领域,该方法生成的文本表示往往相互隔离,不能很好地反映文本之间的语义关系。在这个阶段,高维文本表示应用于神经网络模型,这很容易导致维度灾难。

  本文主要研究基于LSTM的文本上下文相关特征的文本表示方法。本主题将文本上下文依赖性细化为单词 - 单词,实体方面 - 意见文本和主题 - 意见文本,三组特征依赖关系,其中单词取自意见文本数据,而实体方面和主题是意见文本。单独,通常不会在评论文本中显示信息,因此,本文将单词视为内部依赖,而实体咨询文本,主题意见文本作为外部依赖。针对不同的特征依赖关系,本文提出了一种相应的文本表示方法,如图1-1所示。

  互联网文本数据呈现了口语的书面语言,碎片的情感表达以及简短而精致的文本。基于早期机器学习表示的建模,生成的文本表示

  分布式表示方法这一词的呈现和发展为文本表示带来了新的发展机遇。 2014年,Le和Mikolov提出了一种称为分段向量的无监督文本表示方法,并在斯坦福情感树图书馆数据

  集和电影评论数据集中的文本意见挖掘领域取得了优异的成果。这种类型的文本表示的最大特征是能够生成具有固定维度的向量以表示可变长度的句子或段落。该方法包括两个子模型:分段矢量的分布式存储器模型和分段矢量的分布式字袋模型。这两个子模型从word2vec方法扩展而来。最大的区别体现在输入上。段向量的文本表示在每次执行样本计算时,添加表示句子(或段落)的标记D,并且随后的计算与CBOW和Skip模型一致。

  建模主题和意见文本之间的上下文关系,文献提出了英语推文的位置分析任务,并共享数据集,同时显示当时团队的结果。该任务与基于实体的情感分析任务之间的主要区别在于,主题信息在意见文本中不明显,甚至用户的位置也可能与主题本身有关,而与意见文本无关。文献提出使用条件LSTM编码方法,该方法在构造文本表示的过程中依赖于主题信息。实验结果证明,它优于推文和主题的独立编码方法。在汉语领域,NLPCC&2016分享了中文博客帖子的位置分析任务。文献提出分别为每个主题信息训练相应的分析模型,手动生成的五个特征集分别用于相应的支持向量机和随机森林。文献提出了基于监督学习的特定目标的基于注意力的网络模型。其主要工作分为两部分。首先,对与主题中的单词相对应的单词嵌入进行平均并将其用作主题向量。其次,将主题向量中的每个单词对应的单词和意见文本作为拼接处理嵌入;然后,生成由文本信息增强的主题表示。最后,提出了一种神经注意模型,用于通过结合意见文本增强的主题表示,在意见文本中生成特征注意权重值。实验表明,该工作在中英文数据集中取得了最佳效果。然而,在学习主题信息的过程中,该方法首先学习主题的向量表示然后使用它。此过程忽略每个单词要素与主题中的意见文本之间的依赖关系信息。针对这一问题,本文提出了一种注意聚合的文本表示模型,用于构建包含主题信息的文本表示和来自主题单个词的特征的意见文本信息。.............................

  基于注意力聚合网络的文本表示模型主要由四部分组成:输入层使用自然语言解析器来解析意见文本的语法依赖特征,

  然后整合;特征学习层,对于意见文本,添加标准LSTM神经单元的一部分来处理用于实现同时输入的语法相关特征和与输入相关的语法相关信息的功能;对于主题,使用标准LSTM来学习时间序列特征;特征权重学习层,它建立主题中每个单独特征与意见文本上下文之间的联系,用于生成注意权重分布;输出层对特征权重分布和相应的时间序列特征进行加权,以获得最终文本表示并应用于下游任务。本章的模型结构图如图5-1所示。

  文本表示方法是研究自动文本意见挖掘的关键技术。有效学习文本上下文相关特征信息可以提高文本意见挖掘任务的实验效果。本文将上下文依赖细分为:(在意见文本中)单词和单词,实体方面和意见,主题和意见文本。本文逐一研究三种种子关系,具体研究如下:

  首先,在对词语之间依赖于上下文的特征信息进行建模的过程中,本文提出了一种基于注意机制的对称双向LSTM模型,该模型结合了矢量化的词汇信息,增强了词语之间依赖于上下文的特征信息。首先,模型的双向LSTM用于同步和独立地模拟词性和词语之间的上下文。其次,通过模型的关注机制以交互方式学习隐藏层的状态特征的加权分布。对特征权重和隐藏层状态表示进行加权和求和以获得文本表示。本文对两个中国情绪分类数据集进行了实验。实验结果表明,该模型对两种数据集的情感分类效果优于基准模型。

  其次,在实体方面与意见文本之间依赖于上下文的特征信息建模过程中,提出了一种基于二阶注意机制的文本表示方法,实现了特征权重分布的生成和校正。首先,该方法的双向LSTM将意见文本与实体方面相结合进行建模。其次,该方法的二阶注意机制对权重分布进行加权处理。本文验证了该方法对SemEval&2016中面向实体的情感分析数据集的有效性。实验结果表明,该方法得到的文本意见分类优于基准模型。

  最后,在主题和意见文本之间依赖于上下文的特征信息建模过程中,提出了一种基于主题级到主题的注意力聚合网络建模的文本表示方法。首先,本文改进了标准LSTM模型,使其能够根据输入的语法依赖性对输入信息和特征向量进行建模。其次,本文提出了一种特征级别(或词级别)的注意聚合机制。离开,表达主题和意见文本之间的依赖特征。本主题在SemEval&2016的英文位置分析数据集上进行了测试,以验证该方法的有效性。实验结果表明,该方法得到的位置分类效果优于基准模型。

本文链接:http://belanovica.com/yujingjizhi/179.html