2019年3月
基于数据挖掘的电影票房分析
席稼玮(陕西省西安市高新唐南中学,陕西省西安市710000)
【摘要】在电影产业迅猛发展的今天,票房直接反映了一部电影所带来的经济效益,也是衡量一部电影成功与否的重要指标,因而对电影票房进行分析和预测来辅助电影投资和排片十分必要。本文选取了2015~2017年三年的电影数据,通过建立C5.0决策树模型,分析了类型、档期、发行公司、国家地区等八个重要因素对电影票房高低的影响,构建了电影票房预测模型。在此基础上,本文也对这些影响因素进行了关联规则分析。通过实验分析,得出了诸多有意义的结论,如制式是影响票房的关键因素。此外,结果表明,本文构建的预测模型效果良好,可将其用于电影票房预测。
【关键词】电影票房;数据挖掘;分类预测;决策树;关联分析
【中图分类号】TP311.13【文献标识码】A【文章编号】1006-4222(2019)03-0317-03
1引言
随着人们生活水平不断提高,我国影视行业发展迅速,成为全球第二大电影市场,同时也是增长最快的
市场之一。据中国新闻出版广电总局调查显示,2017年全国电影总票房已经超过550亿[1],这说明中国电影产业有着良好的发展前景。然而,电影行业本身的高风险性和社会环境的多样性也为电影票房带来许多不确定因素,高投入低票房低收益的电影案例也屡见不鲜,如2016年上映的《封神传奇》斥资5亿,却只收获2.84亿的票房。因而,研究电影票房的预测模型和相关影响因素对电影投资和排片的决策有着至关重要的指导性作用。
电影作为一种特殊的生存期短的商品,对其票房的预测难度非常大。然而,电影在制作和宣传过程中的高成本、高风险使得对电影票房的预测至关重要。吴发翔等[2]选取了2015年上映的200部国产电影作为实验数据,通过观众期待度、电影自身影响度、同期竞争力等作为预测因变量,提出了基于决策树C5.0的票房预测模型。郑坚等[3]选取2008~2010年之间192部国产电影作为数据集,提出了一种基于多层反馈神经网络的票房预测模型。王炼等[4]选取了2011年上映的211部电影进行分析,提出了基于网络搜索的票房预测模型。对比这些现有的票房预测研究[5],他们选取的数据集多为2016年之前,缺乏时效性。此外,他们并未将电影制式作为影响票房的因变量因素进行分析。
基于此,本文将2015~2017三年间在中国内地上映的所有电影票房数据作为实验数据,选取了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力、同期竞争力八个影响因素,对电影票房进行了分类分析和关联规则分析,建立了电影票房预测模型。本文选取的实验数据具备很强的时效性,覆盖度广,同时创新性地选取了电影制式作为因变量影响因素,对电影票房预测模型的研究具有非常重要
的意义。
2数据选择和处理
数据的选择和处理作为数据分析的重要组成步骤,会直接影响到数据分析的结果。
2.1数据选择
本文选取了2015~2017三年的电影票房数据,与其他已有的电影票房预测模型相比,具备很强的时效性和适用性。本文抓取的电影数据来源于中国票房网(www.cbooo/),中国票房网是电影票房统计,提供详细的电影相关信息,保证了数据的权威性、准确性和完整性。本文预测的目标变量为电影票房,预测的因变量为电影票房的八个影响因素(详见第3章)。
2.2数据处理
本文的数据预处理分三个部分:异常处理,如,对空数据通过其他途径得到并进行填充或者直接剔除;数据去重,对重复数据进行删除;字段处理,统一每个字段的格式和类型,仅保留有效字段。
3电影票房的重要影响因素
电影票房预测对于降低电影的投资风险至关重要。电影票房预测模型的好坏很大程度上取决于电影票房影响因素的选择。
电影自身的影响力决定了这部电影的质量和口碑,而质量和口碑影响着电影的后期票房。主创团队影响力影响的则是观众对电影的期待度,这会影响电影的前期票房。基于此,本文主要从电影自身影响力和主创团队影响力这两方面出发,研究了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力和同期竞争力对电影票房的影响。
3.1类型
不同类型的电影有不同的受众体,不同的体又具有不同的消费水平。例如动画类电影,观影人大多为儿童,相对其他体来说人数较少,且消费水平较低,因此会对票房产生一定影响。
文章主演的电影
本文将电影的类型通过离散化分为12类,分别为爱情、灾难、艺术、恐怖、战争、记录、动画、喜剧、科幻、奇幻、动作、剧情,分析了类型对票房的影响。
3.2档期
从某种程度上来说,档期是电影的纵向市场。一年中的不同时段,人们的观影需求和消费能力有明显差异,比如节假日通常会比非节假日的观影需求要大得多,进而影响票房。
本文将数据进行了离散化处理,将档期分为5类,分别为五一档(4.27-5.10)、暑期档(7.1-9.1)、国庆档(9.27-10.10)、贺岁档(12.26-次年2.1)和其他。
3.3发行公司
好的电影发行公司一般具有专业的制作团队,先进的技术条件和雄厚的资本积累,是电影票房的潜在保障。
本文对数据进行了离散化,通过调研和总结,将制片公司分为3类:好莱坞八大电影公司、中国十大电影公司和其他。其中,好莱坞八大电影发行公司包括:华纳兄弟公司、米高梅电影公司、派拉蒙影业公司、哥伦比亚影业公司、环球影片公司、联美电影公司、20世纪福克斯电影公司、迪士尼电影公司,而中国八大电影发行公司包括:中影CFGC(中国电影集团公司)、光线传媒(北京光线传媒股份有限公司)、华谊兄弟(华谊兄弟传媒股份有限公司)、博纳影业BONA(博纳影业集团股份有限公司)、上影(上海电影(集团)有限公司)、万达影业(大连万达集团股份有限公司)、乐视影业(乐视网信息技术(北京)股份有限公司)、寰亚(香港寰亚综艺集团有限公司)、
论述317
2019年3月
安乐EDKO(安乐影片有限公司)、嘉映影业(北京嘉映文化传媒有限公司)。
3.4国家地区
各个国家和地区的电影风格各具特,因此也会受到人们不同程度的喜爱,所以国家地区也是要考虑的因素之一。
本文通过对数据进行离散化,结合不同国家和区域的电影出品特点,将国家地区分为5类:中国大陆(中国)、港台(香港、台湾)、欧美(美国、英国、法国、意大利)、日韩(日本、韩国)和其他。
3.5制式
近年引入的电影制式,如3D、IMAX等,其具备的立体动画和巨型屏幕会比2D电影的代入感更强,会带给观众更好的观影体验,所以被不少观众青睐。
通过分析抓取到的电影详情数据,发现很多电影有多种制式,如2D和3D并存。本文选取一部电影最先进的制式(IMAX制式>3D制式>2D制式)作为离散化标准,将电影制式离散化为四类:2D、3D、IMAX和其他。
3.6导演影响力
如果一名导演自身有很高的知名度,则通常他导演的电影也将被大众所期待,对电影票房起着积极作用。
本文将导演影响力作为影响电影票房的因素之一。具体地,某部电影的导演影响力可通过计算该电影的导演在此之前导过的两部电影票房总和得到。通过分析2015~2017年三年来每部电影的导演影响力,本文将导演影响力离散化为5类:很低(<100)、较低(100-1000)、一般(1000-5000)、较高(5000-10000)和很高(>10000)。
3.7主演影响力
主演是电影的主角,是电影表现力和票房号召力不可或缺的一部分。如果参演人员本身具有表演实力和一定知名度且受人们喜爱,则电影的受期待程度通常较高,对电影票房有着积极影响。
本文将主演影响力作为影响电影票房的因素之一。具体地,某部电影的主演影响力可选取该电影排名前三的主演进行分析,即分别计算每位主演在此之前作为排名前三的主演参与演出的前三部电影票房总和,最后将其求和作为该电影的主演影响力。通过分析计算出的结果,本文将主演影响力离散化为4类:很低(<1000)、较低(1000-80000)、较高(80000-300000)和很高(>300000)。
3.8同期竞争力
因为观众通常会选择质量好、话题度高且性价比高的电影,因此同期其他电影的上映情况会间接对该电影票房产生影响。
本文将同期竞争力作为影响电影票房的重要因素之一。本文通过计算某部电影上映前后一周(共两周)的电影票房总和得到同期竞争力,对其离散化后分为4类:很低(<50000)、较低(50000-120000)、较高(120000-200000)、很高(>200000)。4实验与分析
本文采用IBMSPSSModeler对2015~2017三年的电影票房进行分析:用C5.0决策树[2,5,6]分析影响电影票房的因素,用Apriori算法[5,6]分析各影响因素之间存在的关联规则。4.1分类分析
为了降低电影投资的风险,帮助投资者做出相关决策,本文对电影票房进行了预测与分析。
4.1.1决策树的构建
本文采用C5.0决策树对票房预测模型进行构建。C5.0决策树是基于C4.5开发的分类算法。由于国家地区和发行公司间存在关联性,而贝叶斯分类算法需要各因素间相互独立,因此并不适用于电影票房预测模型。此外,线性回归和神经网络预测模型适用于连续的因变量预测,且不易理解和部署,因此C5.0决策树算法更为适合电影票房的预测分析。
决策树是一种树形的数据结构,其中每个非叶子节点表示一个属性,每个叶子节点代表一种分类结果。
C5.0决策树算法[6]是目前最经典的决策树算法之一,根据能带来最大信息增益的特征属性来拆分样本,经过数次迭代,可生成决策树或规则集以完成分类和预测。
本文采用IBMSPSSModeler数据分析软件,首先将类型、档期、发行公司等八个电影票房的重要影响因素(详见本文第3章)进行离散化,作为决策树的输入变量,同时将票房通过离散化分为5类:非常低(<1000=、较低(1000-5000)、一般(5000-10000)、较高(10000-50000)和非常高(>50000)作为决策树的目标变量,采用C5.0算法建立了决策树模型。
4.1.2实验结果与分析
决策树分析的实验结果如图1所示,该模型的准确率为76.06%,通过分析实验结果可知,电影制式对票房的影响最
大,预测变量重要性高达0.39。其次是主演影响力和国家地区。而同期竞争力、发行公司是重要性最低的两个因素。
在此基础上,本文将实验结果分析如下:
(1)由于3D、IMAX等技术相对先进,制作成本高,因此票价比一般2D电影贵,导致票房普遍较高,这可能是制式影响票房的主要原因。其次,观众对3D、IMAX电影更有新鲜感,同时这些电影也会给观众带
来好的观影体验,观影人数较多,所以票房较高。
(2)除制式外,国家地区也是影响票房的关键因素之一,原因可能是大多在中国内地能够上映的国外电影,都已经在该地区内上映,并且取得了良好成绩,电影质量、口碑也相对较好。因此,国外电影在中国内地上映后能取得高票房也在情理之中。
(3)发行公司是影响票房的因素中重要性最低的,这可能是因为目前国内制片公司仍然没有形成“几支独秀”的局面,即国内还没有形成像美国好莱坞一样占有绝对领先地位的制片公司或集团,因此发行公司对电影票房的影响相对较低。4.2关联分析
为进一步梳理影响票房的重要因素之间的相关性,本文对类型、档期、发行公司等八个影响因素进行了关联规则分析。
4.2.1关联规则构建
关联规则[6]是形如的蕴含式,其中X是关联规则的条件, Y是关联规则的结果。支持度和置信度是衡量关联规则质量
的重要指标。其中,支持度指的是X和Y同时出现的概率,置信度指的是X出现时,Y出现的概率。通过设定最小支持度和最小置信度,可将高于这两个阈值的关联规则作为强关联规
图1决策树分析结
论述318
2019年3月
则,进而指导决策结果。
在电影票房的分析中,很多因素之间具有很强的关联性,
研究其中的关联规则对电影产业的发展能够提供一定的帮
助。本文采用IBMSPSSModeler数据分析软件,通过Apriori算
法[6]研究了类型、制式、国家地区、档期、发行公司、同期竞争力、主演影响力、导演影响力之间的关联规则,设置最小条件
支持度为20%,最小规则置信度为95%。
4.2.2实验结果与分析
通过关联规则实验,本文选择了两条最有意义的关联规
则如下:
(1)当某部电影的主演影响力低,在其他档期上映,国家地区为中国大陆,并由其他发行公司发行时,该电影的制式很大可能为2D(置信度98%,支持度21%)。原因可能是此类电影影响力和制作资本均不够,没有制作成更高级制式的条件。
(2)当电影类型为爱情时,电影制式通常为2D(置信度97%,支持度20%)。原因可能是爱情片通常靠剧情吸引观众,
通过考量各种综合因素,将爱情片制作成2D性价比更高。5讨论
本文提出的C5.0决策树模型的准确率为76.06%,限制其正确率的原因有两点:本次采用的电影票房数据时间跨度较大,在不同时期下,人们的消费水平不同,因此票房会产生普遍的差异,对分析得到的模型准确度可能也会有较大影响。此外,对连续的数据的离散化可能也会影响实验结果。
6总结与展望
本文采用C5.0决策树算法,基于中国票房网上的数据,对2015~2017三年间的电影票房进行了分类分析,选取了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力、同期竞争力八个因素,构建了电影票房预测模型,得到76.06%的准确率,效果良好。通过对各因素之间的关联性进行分析,本文还得到了一些关联规则,如当电影类型是爱情时,制式通常为2D。
然而,本文的票房预测模型的准确率由于数据和离散化的限制仍有待提升,笔者将会把下一步的工作更多地聚焦于提高模型准确率方面。一方面,笔者将研究离散化过程,同时增加票房影响因素,如网络舆情数据等。同时,笔者将探索其他预测模型,如线性回归、神经网络等,研究更适合电影票房预测的模型。
参考文献
[1]2017年中国电影票房559亿元[EB/OL].2018.
[2]吴发翔,钱佳威,刘江帆.一种基于C5.0决策树算法的票房预测研
究[J].科技广场,2016(4):186~192.
[3]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用, 2014,34(3):742~748.
[4]王炼,贾建民.基于网络搜索的票房预测模型———来自中国电影市
场的证据[J].系统工程理论与实践,2014,34(12):3079~3090.
[5]谢静.电影票房预测研究综述[J].同行,2016(5).
[6]JiaweiHan,MichelineKamber,JianPei,等.数据挖掘:概念与技术[M].机械工业出版社,2012.
收稿日期:2019-2-20
管理创新无止境——
—加快电力企业管理创新步伐李博,王鹏(国家电网公司运行分公司宜宾管理处,四川宜宾644000)
【摘要】创新是事物发展的推动力,是民族进步社会发展的内在要求。随着我国经济的快速稳健发展,
企业如果不能及时变革创新以跟随社会前进的步伐,那么企业终将被淘汰。电力企业作为关乎国计民生的企业其发展也必须根据经济和社会发展要求不断进行管理和机制的自我创新、自我调整。本文立足中国实际国情,首先分析了电力企业创新的原则,然后重点提出来电力企业加快管理创新步伐的一些措施,以期为电力企业改革创新提供一些可行性建议,以及为后人研究这一课题提供一定的参考和借鉴。
【关键词】电力企业;管理创新;原则;措施
【中图分类号】F426【文献标识码】A【文章编号】1006-4222(2019)03-0319-02
引言
自从我国加入世界贸易组织以后,我国经济运行机制势必做出调整,跨国企业的加入导致市场竞争越来越激烈,而市场经济下竞争只能依赖市场的自我调节,国家的宏观调控只是作为宏观补充,因此,诸如电力企业等垄断性企业如果不能及时进行体质改革创新,其市场竞争地位终将受到挑战,所以,电力企业要在管理方面下功夫,要在管理体质创新上做文章,力争把我国的电力企业做成一个管理机制先进、科技水平超前、生产能力巨大的企业。
1电力企业管理创新应遵守的基本原则1.1应充分重视人力资源的创新管理
人力资源是现代企业最为宝贵的也是不可或缺的资源,人力资源并不仅仅包括人才资源,也包括基层员
工,因为当基层员工发掘自己的潜能勇于创新之时,他们也成为了企业的人才。因此,电力企业应充分重视人力资源的创新管理,从制度上、从管理上做到尊重人才并采取积极有效的方法激发每位员工的潜能,这是企业管理者必须熟知必须执行的准则,因为人力资源是包含着创造性、可再生、可持续性的资源,这些是单纯的物质资源取代不了的。作为整个企业的领导者和决策者,要充分发挥企业所有员工的主观能动性,而当员工的主观能动性被充分调动起来之时,其创新精神自然能够被有效的调动起来,所以,企业管理者要从上重视,从制度上构筑一个可以让每个员工发挥特长、积极创新的大平台,进而让人力资源的创新管理落到实处[3]。
1.2应注意营造公平民主的氛围
当今时代是科技时代,科技的快速发展使得分工越来越精细。企业的管理者和决策者在面对重大决策和重大问题的解决方案时不应是“拍脑袋”决策或者稿“一言堂”式的专权,因为时代在发展,每个人包括决策者和领导者都不能保证自己的知识和眼界能够紧跟时代潮流,一旦决策失误,必将给企
管理创新319