(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910596187.9
(22)申请日 2019.07.03
(71)申请人 南京理工大学
地址 210094 江苏省南京市玄武区孝陵卫
200号
申请人 中电科大数据研究院有限公司
(72)发明人 王永利 彭姿容 雷吉成 杨辉 
刘森淼 卜凡 郭相威 朱亚涛 
朱根伟 张伟 罗靖杰 
(74)专利代理机构 南京理工大学专利中心
32203
代理人 薛云燕
李思捷 陈雅伦
(51)Int.Cl.
G06F  16/33(2019.01)
G06F  16/35(2019.01)
G06F  17/27(2006.01)G06K  9/62(2006.01)G06Q  50/00(2012.01)G06N  3/08(2006.01)
(54)发明名称基于双门LSTM的社交网络双语的五分类情感分析方法(57)摘要本发明公开了一种基于双门LSTM的社交网络双语的五分类情感分析方法。该方法为:使用人工标注好的数据集作为初始训练数据集,对测试数据集进行数据清洗以及分词处理;构建双门LSTM网络模型,训练已标注好的五分类训练数据集,并构建英汉双语情感词词典,对数据集进行向量化处理,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,使用分类器选出情感置信度高的数据加入已标注的测试数据
集中,作为新的训练数据集用于训练分类器,循环迭代,直至对所有未标注的测试数据集完成文本情感分类;使用训练好的网络模型,对输入文本进行感情特征分析。本发明能够对社交网络上用户的中英文评论信息进行准确的情
感信息抽取和分析。权利要求书3页  说明书6页  附图1页CN 110427458 A 2019.11.08
C N  110427458
A
1.一种基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,包括以下步骤:
步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类
训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果。
2.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤1所述的数据集的准备和预处理,具体如下:
步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集;
步骤1.2、根据人工标注好的初始训练数据集,对待训练数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,然后得到已经被正确切分的,能够用作模型训练的数据。
3.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤2所述的网络模型构建,具体如下:
构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
i tx=σ(W xi x t+U hi x h t-1x+V ci x c t-1x+b i x)                (1)
i ty=σ(W yi y t+U hi y h t-1y+V ci y c t-1y+b i y)              (2)
f tx=σ(W xf x t+U hf x o t-1x+V cf x c t-1x+b f x)              (3)
f ty=σ(W yf y t+U hf y o t-1y+V cf y c t-1y+b f y)              (4)
o t=σ(W xo x t++W yo y t+U ho x o t-1x+U ho y o t-1y+V co c t-1+b o)      (5)
其中,t表示当前时刻,t-1为上一时刻,i tx、i ty分别代表两个输入门的计算方法,f tx、f ty 分别代表两个遗忘门的计算方法,o t表示输出门的计算方法;σ()为sigmoid函数,x t、y t分
别对应这一时刻x、y方向上的输入,o t-1x为上一时刻x方向的输出门计算,o t-1y为上一时刻y 方向的输出门计算,h t-1x、h t-1y分别为上一时刻输出在x、y方向的分量,c t-1x、c t-1y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y方向遗忘门的偏置向量,b o为输出门的偏置向量,W xi为x方向连接输入门的权重、W yi为x方向连接输入门的权重、W xf为x方向连接遗忘门的权重、W yf为y方向连接遗忘门的权重、W xo为x方向连接输出门的权重、W yo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、
为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、U ho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门在x方向连接记忆单元的权重、输入门在y方向连接记忆单元的权重、遗忘门在x方向连接记忆单元的权重、遗忘门在y方向连接记忆单元的权重、V co输出门连接记忆单元的权重;c t-1表示t-1时刻记忆单元的计算方法。
4.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤3所
述通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,所用工具为gensim里的Word2vec以及Dictionary,具体如下:
设D={d1,d2,...,dn}是做过预处理操作的全部训练数据集数据的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据di={w1,w2,w3,w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。
5.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤4所述的网络模型测试,具体如下:
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
6.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤5所述的情感特征分析,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP)              (6)
recall=TP/(TP+FN)              (7)
F=2*recall*precision/(recall+precision)          (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目;
步骤5.3、输出分类结果。
基于双门LSTM的社交网络双语的五分类情感分析方法
技术领域
[0001]本发明涉及文本情感分类技术领域,特别是一种基于双门LSTM的社交网络双语的五分类情感分析方法。
背景技术
[0002]情感分析又称倾向性分析,是一种基于深度学习的分类方法。文本情感分析作为 NLP的常见任务,具有很高的实际应用价值。一般的文本情感分析采用LSTM模型,对社交网络的用户评论训练一个二分类情感的分类器,来识别文本是积极的还是消极的。LSTM即Long  Short  Term  Memory网络,是一种特殊的RNN类型,可以学习长期依赖信息。神经网络包含输入层、隐层和输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是提前确定好的,神经网络模型通过训练“学”到的东西就蕴含在“权值”中。基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。
[0003]在社交网络上,现有的二分类方法只对文本的情感进行积极或者消极的判断,显而易见,这样的二分类方法对文本的感情分析不够全面,许多种类的情感难以得到剖析。虽然LSTM有很好的利用长距离历史信息的能力,但是它只能够利用一类数据,不能对多类数据进行很好的利用。
发明内容
[0004]本发明的目的在于提供一种能够准确、全面地对文本文档进行五种情感分析的基于双门LSTM的社交网络双语的五分类情感分析方法。
[0005]实现本发明目的的技术解决方案为:一种基于双门LSTM的社交网络双语的五分类情感分析方法,包括以下步骤:
[0006]步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
[0007]步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
[0008]步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
[0009]步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预
处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self -training方法,将经过预处理的训练数据集作为初始训
说 明 书1/6页CN 110427458 A