现代商贸工业四个字网名
2019年第6期
31
㊀基金项目:本文为河北省高等学校人文社会科学青年基金项目 河北省旅游信息情境化推荐方法研究 (S Q 171135)
;河北省人力资源和社会保障课题基金项目(J R S -2017-3133
)的成果之一.作者简介:史海燕(1978-)
,女,汉族,研究生,副教授,研究方向:信息推荐.在线旅游信息推荐方法研究
史海燕㊀郭海玲
袁立老公(河北大学管理学院,河北保定071002
)摘㊀要:在线旅游信息推荐是目前信息推荐的重要应用领域.在对已有旅游信息推荐方法进行梳理的基础
上,提出了一种基于文本挖掘的在线旅游信息推荐方法.该方法从文本信息中提取旅游景点的内容特征,基于内容特征构建用户偏好模型,基于相似度计算实现旅游景点的推荐.实验表明,提出的方法可以取得较优推荐效果.
关键词:信息推荐;旅游信息;推荐方法
中图分类号:F 2㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀d o i :10.19311/j .c n k i .1672G3198.2019.06.013㊀㊀信息推荐是解决信息超载问题的有效方法之一,也是提供个性化信息服务的主要途径.信息推荐技术或系统可以帮助用户从动态变化的信息流中过滤更符合用户需求的信息,降低用户的信息获取成本,减轻用户信息负担,满足用户个性化的信息需求.随着社会经济的发展,旅游成为人们经常开展的活动之一,而已有研究表明,网络已成为用户搜索和预定旅游服务的主要信息来源.网络空间拥有丰富的旅游信息资源,如旅游线路信息㊁景点评论信息㊁游记㊁旅游攻略信息等,但从纷繁复杂的信息中提取用于旅游决策的信息需要花费大量的时间和精力,用户需要有效的方法来解决这一问题,旅游信息推荐成为信息推荐重要的研究与应用领域.本文对国内外在线旅游信息推荐方法进行梳理,在此基础上提出一种基于文本信息挖掘的在线旅游信息推荐方法.
1㊀国内外在线旅游信息推荐方法
信息推荐的基本方法可以分为基于内容的推荐㊁协作式推荐和混合式推荐.基于内容的推荐需要提取待
推荐项目的内容特征,在此基础上构建用户偏好模型,基于用户偏好模型实现推荐.协作式推荐可以分为基于用户的协作式推荐和基于项目的协作式推荐,前者基于相似用户推荐,后者基于相似项目推荐.混合式推荐是将基于内容的推荐和协作式推荐两种方法进行整合.具体到旅游信息推荐领域,根据推荐对象的不同,在线旅游信息推荐可以分为三类.1.1㊀旅游地点推荐研究
这一类研究面向特定的旅游地点或兴趣点进行推荐.X u 等利用用户社交网络中照片的地理标签获取用户的数字足迹,基于用户在特定情境(季节和天气)
下旅游历史的主题分布为用户推荐旅游地点.C l e m Ge n t s 等基于同时访问某一位置的用户数量,利用位置在共现空间的高斯密度估计来聚类相关的地理标签,以此计算两个旅游地点的相似度,进而提供推荐.T R E C (T e x tR e t r i e v a lC o f e r e n c e ,文本检索会议)的情境化建议任务(C o n t e x t u a l S u g g e s t i o nT r a c k )利用用户偏好和时空情境(后期仅包括空间情境)推荐P O I (兴趣点)
.1.2㊀旅游套餐推荐
这一类研究面向组合成套的旅游产品进行推荐,如旅游公司提供的包含多个旅游景点㊁旅游天数㊁价格及配套服务的旅游套餐产品.G e 等考虑用户的时间成本和经济成本,为用户推荐旅行套餐.X i e 等构建的C o m p R e c -T r i p 系统也是在考虑用户时间成本和经济成本的基础上提供旅游套餐推荐服务.Y u 等利用基于位置的社交网络构建用户和位置的模型,通过协作式过滤确定用户的偏好,同时考
虑用户偏好和时空约束为用户推荐旅游套餐.1.3㊀旅游线路推荐
这类研究关注的是旅游地点间的序列关系.T s a i
和C h u n g 考虑用户偏好和时间,为用户提供主题公园路线推荐.Z h e n g 和X i e 通过对用户历史G P S 轨迹的挖掘为用户提供特定空间区域内景点及线路的推荐.
2㊀基于文本挖掘的旅游景点推荐方法
本文提出的方法是一种基于内容的信息推荐方法,推荐的对象是旅游景点信息.该方法首先从旅游景点的描述文本中提取文本特征,将文本特征作为旅游景点的内容特征.其次基于用户对旅游景点的评分数据,计算用户对不同景点特征的兴趣度(即偏好程
区域发展
现代商贸工业
2019年第6期32
㊀㊀
度),在此基础上建立用户偏好模型.最后基于用户偏好与待推荐景点的相似度进行排序推荐.2.1㊀文本特征的提取
在基于内容的信息推荐中,如何提取待推荐项目的内容特征是关键问题之一.对于旅游景点的推荐,已有研究中提取特征的方法大致分为基于类属特征进行提取㊁基于研究者选择的特征提取以及基于文本特征的提取.第一种方法是将旅游景点分类,以类目名称作为旅游景点的内容特征,这一方法易于实现,但不能反映单个景点特有的属性特征.第二种方法是由研究者选择特定的属性作为旅游景点的内容特征,如位置㊁价位㊁季节等,这一方法虽能凸显景点的属性特征,但通常研究者所选择的属性仅限于少数,因此对于景点特征的呈现也并不充分.本文拟采用第三种方法,即从旅游景点的描述文本中提取文本特征,将文本特征作为旅游景点的内容特征.网络空间中分布着大量的旅游景点信息,为提取内容特征提供了丰富的语料,也可以从中提取更为多元的内容特征.
文本特征的提取有多种方法,如逆文档频率(T F I D F )㊁信息增益㊁互信息㊁N-G r a m 法㊁卡方统计等,本文选取逆文档频率法.T F I D F 作为一种文本特征抽取的基本方法,具有简单高效的特点,在文本信息处理领域有着广泛的应用,其基本原理为:一个词在某一文档中出现的频次越多,该词对文档内容的贡献越大,权值越高;一个词在某一文档集合中出现在越少的文档中,其对文档的区分能力越强,权值越高.在对旅游景点的描述文本信息进行采集和预处理后,计算特征项的T F I D F 值,将T F I D F 值大于特定阈值的特征项提取为景点的内容特征.2.2㊀用户偏好建模
用户偏好模型(u s e r p r o f i l e
),也称之为用户模型(u s e rm o d e l )㊁用户个性化模型(u s e r p e r s o n a l p r o f i l e ),通常描述的是用户兴趣和资源特征等概念节点和节点间的关联.本文采用向量空间模型表示用户偏好,具体如下:
令U 为用户u i 的用户偏好模型,P ={p 1,p 2,
}为待推荐的项目集合,R a t i n g 为用户评分矩阵,A={a 1,a 2, }为待推荐项目的属性集合(内容特征),s k 为用户u i 对属性a k 的兴趣度,则U 可以表示为U=(s 1,s 2, ).兴趣度的计算为这一方法的核心问题.本文将用
户u i 对属性a k 的兴趣度s k 定义如下:
s k =
ðj £n w k ,描写大自然的古诗
j (r i ,j -a v e [r i ])n k
其中,w k ,j 表示内容特征a k 在p j 中的权值,p
j 为用户进行了评分的项目,n 是评分矩阵R a t i n g 中所有项目的数量,因此有j ɤn ,r i ,j 表示用户u i 对p j 的评分,a
v e [r i ]表示用户u i 所有评分的均值,n k 为所有用户评分项目中包含属性a k 的项目数量.东莞邮编
2.3㊀相似度计算
在构建了用户偏好模型后,就可以基于用户偏好模型进行旅游景点的排序推荐.将旅游景点表示为其内容特征的向量形式,通过计算景点向量与用户偏好模型的相似度即可以实现排序推荐.相似度的计算方法有多种形式,本文采取较为常用的余弦公式.
3㊀实验及结果
为验证本文方法的有效性,研究者采集了数据并进行了计算机实验.首先是实验数据的准备.本实验所需数据包括两方面:一是旅游景点的描述文本语料库;二是用户的评分数据.描述文本语料库通过自动采集与人工采集相结合的方式构建,最终得到5032条旅游景点及相应的描述文本.用户评分数据通过问卷调查的方法获得,调查了39位用户对100个旅游景点的偏好信息.实验基于W i n d o w s 操作系统,利用P y
Gt h o n 编程实现文本信息特征提取㊁用户偏好模型的构建及相似度的计算.选取查全率㊁查准率和F
均值作为评价指标.实验结果显示,本文提出的基于文本信息挖掘的推荐方法取得了较好推荐效果.
参考文献
演员方舒近况[1]X uZ .X.,C h e nL .,C h e nG..T o p
i cb a s e dc o n t e x t -a w a r e t r a v e l r e c o m m e n d a t i o nm e t h o d e x p l o i t i n gg e o t a g g e d p h o t o s [J ].N e u r o Gc o m p u t i n g ,
2015,155(C ):99G107.[2]C l e m e n t s M.,S e r d y
u k o vP .,V r i e s A.P .,e ta l ..P e r s o n a l i s e d t r a v e lr e c o m m e n d a t i o n b a s e do nl o c a t i o nc o-o c c u r r e n c e [J ].
C o m p
u t e r S c i e n c e ,2011,J u n e :1G30.[3]G eY.,L i uQ.,X i o n g H.
.,e t a l ..C o s t -a w a r e t r a v e l t o u r r e c Go m m e n d a t i o n [C ]//P r o c e e d i n g s o f t h e 11t hK D D ,S a nD i e g
o ,C a l Gi f o r n i a ,U S A ,2011:983G991.
[4]X i eM.,L a k s h m a n a nL .V.S .,W o o dP .T..C o m p R e c -T r i p
:A c o m p o s i t e r e c o m m e n d a t i o ns y s t e mf o r t r a v e l p l a n n i n g [肇庆吃喝玩乐
C ]//I n Gt e r n a t i o n a lC o n f e r e n c eo n
D a t a
E n g i n e e r i n g ,H a n n o v e r ,G e r m a Gn y
,2011:1352G1355.[5]Y uZ .,X uH.,Y a n g Z .,e t a l ..P e r s o n a l i z e d t r a v e l p a c k a g
ew i t h m u l t i-P o i n t -o f -I n t e r e s t r e c o m m e n d a t i o n b a s e d o n c r o w d s o u r c e du s e r f o o t p r i n t s [J ].I E E E T r a n s a c t i o n so n H u m a n -M a c h i n eS y
s t e m s ,2015,46(1):1G8.[6]T s a iC .Y.,C h u n g S
.H..A p e r s o n a l i z e dr o u t er e c o m m e n d a t i o n s e r v i c e f o r t h e m e p a r k su s
i n g R
F I Di n f o r m a t i o na n dt o u r i s tb e Gh a v i o r [J ].D e c i s i o nS u p p o r t S y s t e m s ,2012,52(2):514G527.[7]Z h e n g Y.,X i eX..L e a r n i n g t
r a v e l r e c o m m e n d a t i o n f r o mu s e r -g e n e r a t e d G P St r a j e c t o r i e s [J ].C M T r a n s a c t i o n o nI n t e l l i g
e n t S y s t e m s a n dT e c h n o l o g
i e s ,2011,2(1):389G396.