高师理科学刊
Journal  of  Science  of  Teachers' College  and  University
第41卷第1期2021年 1月
Vol. 41 No.1Jan. 2021
文章编号:1007-9831 (2021 ) 01-0021-06
基于随机森林回归的国产电影首周票房预测分析
宋玉萍1朱家明1杨琴1傅真鑫2,徐可3
(安徽财经大学1.统计与应用数学学院,2.管理科学与工程学院,安徽蚌埠233030; 3.皖江工学院土木工程学院,安徽马鞍山243031 )
摘要:针对国产电影首周票房,以2015—2019年国庆院线上映的558部电影为样本,利用网络爬 虫技术爬取首周票房、导演及演员阵容、电影评分等17个变量,分别建立最优子集回归和随机森
林回归模型,对国产电影首周票房进行预测.通过交叉验证对比2种预测模型的预测精度,探索 最优的预
测模型.
关键词:国产电影;首周票房;最优子集回归;随机森林回归;预测
中图分类号:029: J943 文献标识码:A  doi : 10.3969/j.issn. 1007-9831.2021.01.006
Predictive  analysis  of  first  week  box  office  of  domestic  movies
based  on  random  forest  regression
SONG  Yuping  1, ZHU  Jiaming 1, YANG  Qin  1, FU  Zhenxin 2, XU  Ke 3
(1. School  of  Statistics  and  Applied  Mathematics, 2. School  of  Management  Science  and  Engineering, Anhui  University  of  Finance  and  Economics,
Bengbu  233030, China ; 3. School  of  Civil  Engineering, Wanjiang  Institute  of  Technology, Ma'anshan  243031, China  )
Abstract : For  the  first  week  box  office  of  domestic  films , taking  558 films  released  in  National  Day  cinema  from  2015 to  2019 as  samples , the  web  crawler  technology  was  used  to  crawl  17 variables , such  as  first  week  box  office ,
directors,cast,film  score,etc.,the  optimal  subset  regression  and  random  forest  regression  models  was  established
to  predict  the  first  week  box  office  of  domestic  movies. Through  cross  validation , the  prediction  accuracy  of  the  two  prediction  models  is  compared  to  explore  the  best  excellent  prediction  model.
Key  words : domestic  movies ; first  week  box  office ; optimal  subset  regression ; random  forest  regression ; prediction
随着人们生活水平的提高,电影产业在不断的发展[1].国产电影在此背景下,不断创新并获得成功[2]. 从1905年中国的第一部电影《定军山》成功上映,到2020年至今,国产电影历经了百年的风云变幻[3].根
据中国电影行业发展报告显示,我国电影行业收入从2012年的101.72亿元到2018年的609.76亿元,已经
上涨了约6倍[4],国产电影的占比和票房不断增大,逐渐以较强的优势占领了国内的主要市场[5].
电影具有生命周期短、受众偏好难以把握的特点[6],造成了一部电影的票房收入会受到很多外界因素
的影响,如演员的阵容、电影评分等.同时,在电影产业中,首周票房对一部电影未来的总票房具有较为 重要的预示作用[7-10].国内对于电影票房的实证研究,主要有2个方面:一是对电影票房影响因素的研究;
二是对电影票房的预测研究.谷珊[11]提出了基于模糊神经网络的电影票房预测模型,通过减法聚类提取出 模糊规则,优化隶属函数的初始参数和网络结构,结果表明,模型预测准确度良好,达到预期设想效果;
刘暄[12]采用多元线性回归及层级回归的方法对我国国产电影的影响因素进行了分析,实证表明,电影续集、
收稿日期:2020-08-20
基金项目:国家自然科学基金项目(71934001 );教育部人文社会科学研究项目(19YJCZH069);安徽省教研项目(2018jyxm1305)
作者简介:宋玉萍( 1997-),女,安徽滁州人,在读本科生.E-mail : ******************
通信作者:朱家明(1973-),男,安徽泗县人,副教授,从事数学建模研究.E-mail : *****************
22高师理科学刊第41卷
上映天数等因素与电影票房显著正相关;李笑雯[,3]利用反事实分解和倾向得分匹配方法,得出明星出演对于电影票房有一定的促进作用,但明星效应具有边际效用递减的特征,随着电影体量的扩大,明星发挥的作用逐渐降低的结论;李旺泽[,4]采用随机森林回归模型,对相关22个变量建立国产电影票房预测模型,平均预测精度达到85%左右.
本文针对国产电影首周票房,以2015—2019年国庆院线上映的558部电影为样本,利用网络爬虫技术爬取首周票房、导演及演员阵容、电影评分等17个变量,分别建立最优子集回归和随机森林回归模型,对国产电影首周票房进行预测.
1数据来源与变量选择
明星电影1.1变量选择及量化
1.1.1导演及演员阵容考虑到主要演员的热度以及主导演的知名度会影响到电影的票房,选取电影的主导演和前3个主演作为研究变量,通过百度搜索指数整体日均值来表示导演和演员评分.
1.1.2居民人均可支配收入研究表明,电影的票房和居民人均可支配收入有关,从经济学角度来说,居民人均可支配收入的增加能够促进人们的消费支出,故选取每一季度的数据,再用其均值代表其月度数据.
1.1.3电影评分豆瓣评分是每个网友在豆瓣打分的体现,官方没有修改评分的权限,所以豆瓣评分可以作为电影质量的参考.
1.1.4宣传效果电影的宣传效果采用电影的上映前票房和提前上映天数2个变量来表示,预售票房较高,则电影宣传效果较好;反之,则宣传效果较差.
1.1.5档期根据电影上映时间的不同,可大致分为春节档(大年三十至正月初十)、国庆档(10.01—10.07日)、五一档(05.01—05.03日)、暑期档(07.01—08.31日)和普通档.按照电影上映的时间,将电影档期处理为二分类变量,档期内电影表示为1,普通电影表示为0.
1.1.6电影类型电影的类型具体分为喜剧、剧情、悬疑、爱情、动作及科幻共6种类型,采用虚拟变量0和1来进行赋值.
1.2数据来源与清洗
本文以2015年1月到2019年国庆所有院线上映的国产电影作为研究对象,分别收集首周票房、导演、
主演1、主演2、主演3评分、居民人均可支配收入、电影评分、提前上映天数、上映前票房、首周上映天数、是否为档期以及电影类型(喜剧、剧情、悬疑、爱情、动作及科幻)共17个变量相关数据.其中,居民人均可支配收入来源于国家统计局,电影评分等数据来源于豆瓣(movie.douban/),导演及演员评分来源于百度指数(/v2/index.html#/),电影票房数据来源于艺恩票房(data/Project/datas.html).
利用Python软件爬取相关网站的数据,获得原始数据,由于部分电影信息存在缺失以及极端异常值的情况,为了提高模型的有效性和数据结果的准确性,需对原始数据进行清洗.首先,剔除非院线上映、评分在2分以下以及首周票房数据缺失的电影;其次,由于动画电影的特殊性,难以研究导演和主演的影响,因此,应剔除动画类电影.经过处理得到558个样本数据,数据来源及研究意义见表1.
表1数据来源与研究意义
变量研究意义定义数据来源导演表示导演名气的影响百度搜索指数整体日均值百度
主演表示明星粉丝效应的影响前3主演,百度搜索指数整体日均值百度
居民人均可支配收入反映人们的消费信息季度数据均值表示当月居民人均可支配收入/元国家统计局
电影评分反映电影的质量信息豆瓣评分豆瓣
提前上映天数表示前期宣传天数电影上映前预售天数/d艺恩
上映前票房表示前期宣传力度电影上映前预售票房/万元艺恩
首周上映天数反映首周天数的影响电影首周上映天数/d艺恩
是否为档期反映档期的影响档期内电影记为1,普通电影记为0豆瓣
电影类型表示类型的影响6种电影类型,采用虚拟变量0,1处理豆瓣
首周票房电影票房信息电影上映首周票房/万元艺恩
第1期宋玉萍,等:基于随机森林回归的国产电影首周票房预测分析23 2描述性分析
对558个样本数据部分变量进行描述性分析,部分结果见表2.由表2可以看出,电影评分最低为2.1分,最高达9分.首周上映天数最低为1d,中位数为3d,说明大部分电影首周上映天数集中为3d.在首周票房占总票房的比例中,中位数达0.5960,均值达0.5863,首周票房对总票房的贡献程度较大,可以说明一部电影上映的首周票房决定了总票房的趋势.除首周票房标准差较大外,其它变量的标准差均较小.此外,在样本数据中普通电影413部,占比74.0%,档期内电影145部,占比26.0%;在电影类型中,喜剧176部,剧情211部,悬疑79部,爱情35部,动作44部,科幻13部.
表2变量描述性统计
变量极小值中位数均值极大值标准差
居民人均可支配收入/元1615202920842831275.27
电影评分  2.1  4.7  4.8759  1.58
提前上映天数/d000.571918  1.95
上映前票房/万元0091.235683536.09
首周上映天数/d13  3.59113  1.52
首周票房/万元101182844820211720477.73
首周票房占总票房比例0.04060.59600.58630.99620.1911
3最优子集回归模型分析
在多元线性回归中,常见的特征选择方法之一为最优子集回归.最优子集回归能够选择少量并且合适的特征来拟合模型,既能够避免过拟合,也可以增加模型的解释度,也是逐步回归的一种替代方案.
3.1模型原理
在最优子集回归过程中,从解释变量中出对被解释变量所有可能有影响的自变量集合,并依据某种准则,选择最优的自变量子集.模型原理为:对于p个特征,从p个特征中任意选择k个(1<k£p),建立c p个模型,选择一个最优的模型,但当特征数多于样本量时,回归效果就会降低,回归方程可表示为
Y=b o+b i X1T2X+…+略+e(1)其中:Y为因变量;X i,X2,…,X p为自变量;00,b,炖,…,b为回归系数;e为残差.
3.2数据处理
将首周票房作为因变量y,将导演评分、主演1评分、主演2评分、主演3评分、居民人均可支配收入、电影评分、提前上映天数、上映前票房、首周上映天数、是否档期、喜剧、剧情、悬疑、爱情、动作、科幻等16个变量作为自变量x,(i=1,2,3,…,16).
由于不同数据的量纲并不相同,所以利用Z分值法对数据进行无量纲化处理,使得数据具有相互比较性.无量纲化公式为
.x-x
x=
s
其中:x为原始数据均值;s为原始数据标准差.
3.3最优子集回归
在进行最优子集回归时,以贝叶斯信息准则
r rss/、
BIC=n log I—-I+p log(n)(3)
作为最优子集回归的选择标准,其中:n为样本总量;宦
p为特征数;RSS p为残差平方和.利用Rstudio绘制
出贝叶斯信息准则图像(见图1)
由图1可以看出,随着变量个数的增加,贝叶斯
信息准则逐渐下降,当变量数为7时,具有最小的
BIC,故最优变量个数为7,再利用Rstudio出最优图1贝叶斯信息准则图像
24高师理科学刊第41卷
变量,最后确定X],x2,x5,x6,x8,x10,X]1(这里为无量纲化处理后的数据,下同)具有最小的信息准则.筛选出变量后,对训练集数据进行拟合,结果见表3.
表3最优子集回归结果
变量回归系数标准差t值Pr(>l t)
Intercept-0.211340.04965-4.256  2.62e-05***
导演评分0.098850.03794  2.6060.00953**
主演,评分0.142890.03511  4.070  5.72e—05***
居民人均可支配收入0.099190.03694  2.6850.00756**
电影评分0.125630.03818  3.2910.00109**
上映前票房0.316280.043137.333  1.36e-12***
是否档期0.342660.08553  4.0077.41e-05***
喜剧0.313890.07937  3.9559.14e-05***
注:**表示比较显著,***表示非常显著.F检验值为27.72,对应的P值显著小于0.05.
由表3可以看出,在5%的显著性水平下,模型系数对应的P值均小于显著性水平,拒绝原假设(H0:0]=02=05=06=08=010=b n=0),回归系数显著;由于模型显著性F检验对应的P值小于显著性水平,因此拒绝原假设,模型线性关系显著.故模型通过了统计检验.
可得公式
y=-0.21134+0.09885五+0.14289x2+0.09919x5+0.12563x6+0.31628x8+0.34266五0+0.31389x11(4)
R=0.3374(5)其中:R为最优子集回归可决系数.
3.4模型检验
方差膨胀因子VIF常用来检验自变量是否存在多重共线性,判断自变量之间是否存在较强相关性,若存在多重共线性,则参数估计量方差增大,回归系数不显著.计算公式为
VIF=占(6)其中:R为可决系数.由于变量的VIF均小于10(见表4),故不存在多重共线性.
表4多重共线性检验
项目导演评分主演1评分居民人均可支配收入电影评分上映前票房是否档期喜剧
VIF  1.0502  1.0535  1.0465  1.0601  1.0638  1.0767  1.0237
3.5结果分析
在最优子集回归中,导演、主演1评分、居民人均可支配收入、电影评分、上映前票房、是否为档期、电影类型为喜剧均对首周票房有正向作用,即导演和主演1名气越大,百度搜索指数越多,首周票房越高,其中上映前票房、是否档期、喜剧对首周票房的影响较大.
4随机森林回归模型分析
随机森林采用Bagging类算法,通过训练多个弱模型组合成一个强模型,能够提高最后结果的准确率,采用随机森林回归有助于提高首周票房预测的准确率.
4.1模型原理
随机森林由多个二叉决策树构成,在构建决策树过程中,通过有放回的抽样选择样本和变量,形成数量较多的决策树.对于切分变量和切分点的选择,采用穷举法,即遍历每个特征和每个特征的所有取值,最后从中出最好的切分变量和切分点,以切分后节点的不纯度来衡量切分变量和切分点的好坏,即各个子节点不纯度的加权和,在随机森林回归中不纯度函数采用均方误差(MSE),计算公式为
岭)=占工(y-另)2+Y(y,-y”)2(7)其中:G为各个子节点不纯度的加权和;X,为切分变量;N s为当前节点所有训练样本数;y,为当前节点样本目标变量值;V j为切分变量的切分值;X i,X r分别为左右子节点的训练样本集合;y,y r分别为左右
第1期宋玉萍,等:基于随机森林回归的国产电影首周票房预测分析25
节点样本目标变量的平均值.
4.2数据处理
将被解释变量和解释变量代入,利用Rstudio 进行拟合,寻随着误差的降低能达到最小误差的最优
分类树的数量(见图2).
由图2可以看出,9 8 7 6 5
10 0 0 0 0图2分类树的数量选择
MSE 会显著下降,当树的数量达到
以后,下降程度几乎不变,
出最优树的数量为121,对数据进行拟合,结果见表5.
表5随机森林回归拟合结果
随机森林
回归拟合树的数量
121
每次分裂选择变量数5
均方误差0.484 5
方差解释率(%)36.68
从以某个变量为拆分变量所造成的均方误差的平均递减角度来衡量变量的重要性,数值越大,说明变 量越重要.绘制出变量重要程度图(见图3).
由图3可以看出,x 1, x 2, x 3, x 4, x 5, x 6,
x io 等变量较为重要,最后绘制随机森林回归拟合
x 7
,
5 0004 0003 000
2 0001 000
6 000
样本
图4随机森林训练集拟合结果
4.3结果分析
在随机森林回归中,导演和主演1评分对首周票房的影响最大,说明明星效应对票房具有较大影响;
电影评分、主演2评分、居民人均可支配收入、主演3评分、上映前票房对首周票房的影响次之;同时, 在电影类型中喜剧对首周票房的影响较大,说明国产电影中喜剧类电影对观众具有较大的吸引力.
4.4最优子集回归与随机森林回归的比较
交叉验证是一种统计学上将数据样本切割成子集,再进行交叉验证的实用方法,可以用来确定模型的
有效性.本文中将数据分为训练集和测试集,用389个样本分别建立最优子集模型和随机森林回归模型,
再用169个样本分别测试2种模型的拟合结果.训练集部分样本预测值比较见表6, 2种模型均方误差比
较见表
7.