第40卷第5期Vol.40㊀No.5
重庆工商大学学报(自然科学版)
J Chongqing Technol &Business Univ(Nat Sci Ed)
2023年10月Oct.2023
基于位置子市场划分的房价贝叶斯概率模型
秦心静,章㊀平,张新杨
安徽工程大学计算机与信息学院,安徽芜湖241000
一种基于子市场效应的贝叶斯概率模型㊂在改进算法设计时,首先借鉴子市场聚类思想,引入一个潜在变量表示子市场,依据位置邻近性和可替代性建立子市场标准;其次,将子市场标准和特征价格模型作为贝叶斯网络的概率依赖确定各子市场效应的范围,完成子市场划分;最后,依据房屋所属子市场的概
率预测房价,且分析子市场的关键影响因素,以提升预测精度和可解释性㊂将模型与5个现有模型从平均绝对百分比误差㊁平均绝对误差和均方根误差3个方面对比;根据杭州市2019年之前的房产数据,分别测试非子市场模型与子市场模型的算法性能㊂实验表明:该贝叶斯模型对房地产价格预测精度优于对比模型,且具有可解释性的优点㊂关键词:房价评估;HPM 模型;概率模型;位置特征;子市场
中图分类号:TP391㊀㊀文献标识码:A ㊀㊀doi:10.16055/j.issn.1672-058X.2023.0005.011
㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀
㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀
收稿日期:2022-09-20㊀修回日期:2022-10-26㊀文章编号:1672-058X(2023)05-0081-08
基金项目:安徽省自然科学基金项目(2108085QF264,2108085QF268);安徽工程大学校级科研项目(XJKY2022154).作者简介:秦心静(1997 ),女,安徽宣城人,硕士研究生,从事房产评估研究.
通讯作者:章平(1982 ),男,安徽芜湖人,博士,副教授,硕士生导师,从事无线定位㊁城市计算㊁物联网研究.Email:pingzhang@
ahpu.edu.
引用格式:秦心静,章平,张新杨.基于位置子市场划分的房价贝叶斯概率模型[J].重庆工商大学学报(自然科学版),2023,40
(5):81 88.
QIN Xinjing ZHANG Ping ZHANG Xinyang.Bayesian probability model for real estate price based on location submarket
segmentation J .Journal of Chongqing Technology and Business University Natural Science Edition 2023 40 5 81 88.
Bayesian Probability Model for Real Estate Price Based on Location Submarket Segmentation QIN Xinjing ZHANG Ping ZHANG Xinyang
School of Computer and Information Anhui Polytechnic University Anhui Wuhu 241000 China
Abstract A Bayesian probability model based on sub-market effects was proposed to address the situation that the hedonic price model HPM is prone to insufficient prediction accuracy and interpretability in the face of the complex relationship between house prices and characteristics.In improving the algorithm design the idea of sub-market clustering was borrowed a latent variable was in
troduced to represent sub-markets and sub-market criteria were established based on location proximity and substitutability.Next sub-market criteria and hedonic price models were used as probabilistic dependencies of Bayesian networks to determine the range of effects in each sub-market completing the sub-market segmentation.Finally house prices were predicted based on the probabilities of the submarkets to which the houses belonged and the key influencing factors of the submarkets were analyzed to improve the prediction accuracy and interpretability.The model was compared with five existing models in terms of mean absolute percentage error mean absolute error and root mean square error.The performance of the algorithms of the non-submarket model and the submarket model were tested separately based on property data of Hangzhou City before 2019.The experiments show that the Bayesian model outperforms the comparison models in terms of accuracy in forecasting real estate prices and has the advantage of interpretability.
Keywords house price assessment Hedonic Price Model HPM probability model location characteristics submarket
重庆工商大学学报(自然科学版)第40卷
1㊀引㊀言
现代社会,房地产已经成为人民生活和国家经济最重要的话题之一㊂合理评估房屋特征对房地产价格的影响,对城市规划和社会生活具有重要意义:为住房购买者提供市场价格信息㊁房市趋势信息,协助其进行购房选择[1];为房地产投资者提供市场划分信息㊁房价影响因素权重,协助其进行投资决策[2];为城市规划者
提供住房周边资源变化所能产生的价值信息,量化不同城市规划决策带来的影响[3]㊂
特征价格模型(Hedonic Price Model,HPM)[4]是一种评估房屋特征对房地产价格影响的方法㊂该模型将房屋的各种特征属性作为自变量,房地产价格作为因变量,建立回归方程,量化各属性对房价的影响㊂但是,由于房屋特征与房价关系复杂,现有的回归方程在房价预测精度和可解释性方面仍有不足㊂
为了提高房价预测精度,很多学者都进行了深入研究㊂文献[5,6]采用机器学习与HPM相结合的方法来降低评估误差;文献[7,8]通过改变数据特征来提升精度㊂在结合使用机器学习方面,Yan等[5]在评估中使用遗传算法来优化神经网络模型,通过遗传神经网络选择最合适的权重和阈值,有效降低了评估误差;文献[6]发现很少有应用程序侧重于提高房价预测能力,他们通过对比基于决策树的不同集成方法(如Bagging㊁Boosting㊁随机森林等),为整个西班牙市场开发了一个应用程序,实现完全自动为每个城市提供最佳预测模型㊂在改变数据特征方面,Chanasit等[7]在改进的Garson算法中结合升压策略和输入灵敏度分析来进行特征选择,通过ANN模型迭代调整选择的标准,保证每个信息特征的灵敏度系数;Xu等[8]利用信息增益比方法对特征进行加权㊁排序,在有限混合模型的基础上建立回归模型㊂
但在提高房价预测精度时,部分评估方法往往会存在一些可解释性方面的不足㊂针对这个情况,Wu 等[9]通过探讨空间连续性对住房子市场分类的作用,提出一种基于主成分分析和聚类分析的数据驱动模型,利用房屋地理位置,细分整个空间的子市场;在此基础上,Liu等[10]基于建筑环境和房屋基础特征对整个子市场建模,利用子市场效应提升房价预测精度,并提出概率层次聚类方法推断市场层次结构㊂
虽然已有研究对预测精度和可解释性进行提升,但在特征选择和预测结果分析方面仍有改进空间㊂对此,基于子市场效应的研究,本文采用贝叶斯概率框架,根据房屋位置划分子市场,建立各子市场内的房地产特征价格模型,最终利用贝叶斯估计提升房价预测精度㊂主要贡献如下:
(1)引入表示子市场划分的潜在变量,依据空间邻近性和可替代性迭代优化子市场划分结果,获得空间任一位置属于不同子市场的概率分布㊂(2)分析子市场内部影响房价因素排名,对比了不同子市场房价形成机制差异性,提高模型可解释性㊂(3)对比子市场的划分结果和地理行政区划的关系,证实地理行政区划对房价形成机制的重大影响㊂
2㊀房价影响因素
房地产价格主要取决于自身地理特征㊁附近房产价格及潜在商业区价值[11]㊂国内外学者从房屋基础特征[12]㊁环境特征[13]㊁区位特征[14]㊁社会经济因素[15]等方面研究房地产价格的影响因素㊂本文主要从房屋基础特征和环境特征来构造房屋特征,如表1所示㊂
表1㊀房屋特征
Table1㊀Attributes of House
类型㊀㊀㊀㊀特征
房屋位置经纬度坐标
基础特征
面积㊁楼层㊁装修类型㊁朝向㊁年份㊁
客厅数量㊁卧室数量㊁浴室数量周边建筑类型1km内20个类别的POI数量
学校
1.5km内公立普通中小学数量
1.5km内公立重点中小学数量
1.5km内私立普通中小学数量
1.5km内私立重点中小学数量
交通设施
1km内地铁站数量
0.5km内公交车站数量
0.5km内停车场数量
房屋基础特征主要研究房屋自身建筑属性对房屋价格的影响㊂本文选用的房屋基础特征包括面积㊁楼层㊁年份㊁装修类型㊁房屋朝向㊁客厅数量㊁卧室数量㊁浴室数量共8种㊂环境特征反映房屋与学校㊁医院㊁商场等周边设施的距离对房价的影响,其中,学区房是近年来较为突出的影响因素,为了孩子能接受更好的教育,越来越多的家庭对周边优质学区房产生极高的需求㊂
28
第5期
秦心静,等:基于位置子市场划分的房价贝叶斯概率模型
除此之外,人们对公共交通出行需求的增加,使得周边交通设施对房价也有一定影响㊂
本文选用周边建筑类型㊁学校和附近交通设施等特征刻画环境特征㊂通过建立特征索引树,计算房屋经纬度坐标与周边建筑经纬度坐标的差值是否小于阈值,以此量化环境特征㊂所选用的周边建筑类型包括商务办公职能㊁零售服务职能㊁餐饮服务职能㊁教育科研职能㊁医疗卫生职能等20种POI 类型;学校分为公立㊁私立㊁重点㊁普通4种;交通设施包括地铁站㊁公交站㊁停车场㊂
将房屋特征记作R =r 1,r 2, ,r N []ɪR
35ˑN
,r n ɪR
35
代表第n 套房屋的基础特征与环境特征,N 为总房屋数量㊂房屋位置由经纬度坐标表示,记作P =p 1,p 2, ,p N []ɪR
2ˑN
,其中p n ɪR 2
代表第n 套房屋的经
纬度位置,房屋观测价格记作Y =y 1,y 2, ,y N []T ɪR N ㊂为了对子市场效应建模,引入潜在变量s n ɪ
1,2, ,K }{指示第n 套房屋所属子市场,即s n =k 代表第n 套房屋属于第k 个子市场,K 为子市场总个数㊂为方便表示,记S =s 1,s 2, ,s N []T ɪZ N 表示所有房屋的子市场归属㊂本文所使用的符号定义如表2所示㊂
表2㊀符号定义Table 2㊀Notations definition
符㊀号维㊀数描㊀述R 35ˑN 房屋特征Y N 房屋价格P 2ˑN 房屋位置S N 所属子市场K
1
子市场数量
3㊀贝叶斯概率模型
如图1所示,通过房地产交易网站获取房屋特征及位置,包括面积㊁楼层㊁装修类型㊁朝向等基础特征,基于房屋位置利用高德地图兴趣点(Point of Interest,
POI)数据获取周边建筑类型㊁学校和交通设施等环境特征㊂利用房屋位置与房屋特征构建基于子市场划分的贝叶斯概率模型,最终实现房地产价格预测和子市场内部影响房价因素的分析㊂
数据房屋位置基础特征周边建筑类型
学校交通设施
特征构建房屋特征
基础特征环境特征
房屋位置
应用
预测价格
子市场分析
依据:
子市场划分
H P M 构建
所属子市场房屋特征
房屋位置
房屋价格
S
n
r n P n
y n 图1㊀价格预测与子市场分析流程
Fig.1㊀Price forecast and submarket analysis process
3.1㊀模型假设
本模型提出的贝叶斯网络中,房屋特征㊁房屋位置以及房屋价格是可观测的,而房屋价格与房屋特征和位置的关系都依赖于子市场㊂模型流程如图2所示㊂
所属子市场
房屋特征
房屋位置房屋价格
S n
P n r n
y n
图2㊀概率模型关系示意图
Fig.2㊀Diagram of probability model relationship
把房屋所属子市场看作随机变量,为了表示房屋属于每个子市场的先验概率,所属子市场s n 服从参数为a 的多点分布概率向量,a ɪR k 刻画了属于不同子市场房产数量的先验比例㊂房屋位置与子市场的关系用高斯分布来表示,参数μs n 代表子市场的位置中心点,参数ðs n 刻画范围大小㊂房屋价格由所属子市场和房屋特征共同确定,函数f s n r n ()则是子市场内部的特征价格模型,σ2s n 表示预测价格的浮动范围㊂
3
8
重庆工商大学学报(自然科学版)第40卷
对第n 套住房,n ɪ1,2, ,N }{,如式(1)所示:s n ~Categorical a ()
p n ~N p |μs n ,ðs
n
()
y n ~N y |f s n r n (),σ2s n ()
(1)
此模型中,房屋位置划分子市场的标准主要基于异质性的相关标准,基于贝叶斯网络结构,子市场位置和范围由空间邻近性[16]和可替代性决定㊂空间邻近性表示子市场和房屋位置之间的依赖关系,要求同一子市场内的房屋位置临近,假设每个子市场都存在一个中心点,则高斯分布的特点让属于同一子市场
的房屋围绕该中心点分布㊂可替代性指相同子市场中房屋特征转售机制的相似性,使用HPM 回归价格与观测价格之间的方差量化可替代性㊂
总体来讲,房屋价格由房屋特征和所属子市场决定,如图2所示㊂各子市场都有唯一的HPM 与其对应,本文所采用的HPM 是梯度推进回归树(GBDT)[17]㊂与线性模型相比,此模型具有相对较低的偏差,并且使用部分依赖的概念,具有良好的解释性㊂3.2㊀超参数估计
完成模型构造后,采用经验贝叶斯方法
[18]进行超
参数估计,超参数表示为θ={a k ,μk ,ðk ,f k ,σ2
k
}
K k =1
㊁参
数(潜在变量)S ㊁观测数据D =p n ,y n ()}{㊂给定观测数据和子市场数量K 的情况下,使用最大似然原理估计θ㊂由式(1)得D 的对数似然如式(2)所示:
L θ()=log Pr D |θ,K ()=
㊀
ðN n =1log ðK
k =1
Pr (p n ,y n |s n =k ,θ,K ()ˑ
㊀㊀㊀Pr (s n =k |θ,K ))
(2)
为了最大化似然函数,使用期望最大化算法(EM 算法)评估超参数θ,推导过程如式(3)和式(4)所示:
Q θ|θɵt ()
()=E s log Pr D ,S |θ()|D ,θ
ɵt ()
[]=㊀
ðs Pr S |D ,θɵ
t ()()log Pr D ,S |θ()
(3)θ
ɵt +1()
=argmax θ
Q θ|θɵ
t ()()
(4)
EM 算法的详细推导过程:算法分为两步,期望(E
步)如式(5)所示,利用对超参数的现有估计值,评估所属子市场的后验概率㊂
γs n ()=Pr k |p n ,y n ,θt (),K ()=
㊀
Pr k |θt (),K ()Pr p n ,y n |k ,θt (),K ()
ðK
i =1a t
()
i Pr y n |i ,θt (),K ()Pr p n |i ,θt (),K ()
(5)
最大化(M 步)如式(6)所示,极大化E 步求得后验概率更新超参数的值,并用于下一次迭代的E 步㊂
T n =argmax k
γs n ()
(6)
再整合第k 个子市场,根据房屋所属子市场,对HPM 回归更新,即更新f t +1()k ㊂计算出有效成员数量N t +1()k =
ðN n =1
γs n (),并最大化Q θ|θ^
t ()(),令其求导为零,求得超参
数θ,具体的超参数值如式(7)所示㊂
a t +1()k =N t +1()
k N μ
t +1()
k
=1
N t +1()
k
ðN
n =1γs n ()p n
㊀
ðt +1()
k
=
1
N t +1()
k
ðN
n =1
γs n ()p n -μt +1(
)
k ()p n -μt +1()k ()
T
σ2t +1()y ,k
=
1
N t +1()
k ðN
n =1
γs n ()y n -f t +1()k r n ()()
2
(7)n号房时间
当连续两次迭代得到的对数似然值之差小于阈值时,
EM 算法迭代终止㊂算法流程如图3所示㊂
开始
输入D ,K
获得θ;计算L (θ),后验概率
更新θ;L (θ)
L (θ)_o l d L (θ) n e w <;阈值
输出θ,
L (θ),N
终止
N
Y
图3㊀算法流程图Fig.3㊀Algorithm flowchart
4
8
第5期
秦心静,等:基于位置子市场划分的房价贝叶斯概率模型
3.3㊀子市场划分与价格预测
求解出最优超参数后,使用贝叶斯平均值作为最终预测价格㊂具体来说,利用EM 算法求得的参数θ,计算房屋在每个子市场的后验概率,如式(8)所示:
Pr s =k |p ,r ,θ^
()=㊀
Pr s =k |θ^
()Pr p ,r |s =k ,θ^
()
ðK i =1Pr s =i |
θ^
()Pr p ,r |s =i ,θ^
()
(8)
求出该房屋在k 个HPM 中的k 个子市场的预测价格平均值,如式(9)所示,即为最终预测价格:
y ~
=
ðK
k =1
y ~
k Pr s =k |p ,r ,θ^
()
(9)
再通过该房屋的后验概率值,导出其所属子市场的标签,如式(10)所示:
T =argmax k
Pr s =k |p ,r ,θ^
()
(10)
4㊀实㊀验
4.1㊀数据获取
选用杭州市二手房地产市场数据来评估模型,实验数据集的统计数据如表3所示㊂该数据来自中国最大的在线房地产交易网络之一的Fang,包括二手房价和8种房屋特征㊂
表3㊀数据集㊁属性㊁统计
Table 3㊀Data sets ,attributes ,statistics
数据集属性统计量二手房数据房屋数量42064
房屋特征数量9POI 数据
类型数量20POI 总数
633813
交通设施数据
地铁站数量
257公交站数量19648
停车场数量35704
中小学数据
公立普通学校数量
716公立重点学校数量75私立普通学校数量10私立重点学校数量
6
POI 数据㊁交通设施数据和中小学数据从中国最大
的在线定位服务提供商之一的Amap 获取㊂采集杭州2019年及此之前的房地产数据分析,将房地产数据分为训练集㊁验证集和测试集㊂随机抽选60%的数
据为训练集,20%数据作为验证集,剩下20%数据作为测试集㊂
4.2㊀子市场数量选择
为了确定子市场数量,合并验证集和训练集进行交叉验证,子市场数量从2开始增加到足够大,观察平
均绝对百分比误差(εMAPD )的结果如图4所示㊂结果显示:当子市场数量从2增加时,验证集上的εMAPD 不断减少,直到子市场的数量达到49时为肘点㊂因此,将子市场的数量设置为49㊂子市场划分结果如图5所示㊂
0.160.140.120.100.080.06
0.04
10
20
304050
60
70
80
εM A P D
子市场数量
K *
=49
验证集
训练集
图4㊀交叉验证结果Fig.4㊀Cross -verification
results
图5㊀子市场划分结果展示
Fig.5㊀Display of submarket division results
4.3㊀算法性能评估
本文选取平均绝对百分比误差(εMAPD )作为主要指标评估房价预测的准确性,将原始误差标准化,消除数值过大存在的偏差;平均绝对误差(εMAE )提供直观的误差度量,反映预测价格与实际价格的误差大小;均方根误差(εRMSE )反应数据集的离散程度㊂定义如式(11)所示:
5
8
发布评论