Hans Journal of Data Mining 数据挖掘, 2020, 10(2), 152-162
Published Online April 2020 in Hans. /journal/hjdm
/10.12677/hjdm.2020.102016
An Analysis of the Development of Chinese
Science Fiction Movies
—Text Mining Based on Online Reviews
Ziqiang Yan, Rufei Zhao, Yuting Zhang, Wenqi Zhang, HuqinYan
Xiamen National Accounting Institute, Xiamen Fujian
Received: Mar. 27th, 2020; accepted: Apr. 14th, 2020; published: Apr. 21st, 2020
Abstract
As one of the most important commercial genre films on the market, science fiction movies use unique narrative methods and highly impactful artistic expressions to dramatically show the impact of technological progress and social changes. This article uses the BS4 web crawler, Wordcloud statistics, Jieba Chinese character lexicon and other analysis tools provided by the Python lan-guage to conduct online film reviews of the Hollywood science fiction film “Avengers” “The Num-ber One Player” and the Chinese science fiction film “Wandering Earth”. It analyzed and summa-rized the reasons for the success of Hollywood science fiction films, as well as the unfavorable fac-tors and favorable conditions for the development of Chinese science fiction films, so as to propose thinking and prospects for the future trends of the development of Chinese science fiction films.
Keywords
Text Mining, Science Fiction Movie, Factor Analysis, Film Market
—
—基于网络在线评论的Python文本挖掘
严自强,赵汝飞,张玉婷,张文琦,阎虎勤
厦门国家会计学院,福建厦门
收稿日期:2020年3月27日;录用日期:2020年4月14日;发布日期:2020年4月21日乒乓球混双比赛的规则
摘要
科幻电影作为目前市场上最重要的商业类型片之一,用独特的叙事方式和极具冲击力的艺术表现手法,
母亲节 祝福语严自强等戏剧化的展现出科技进步和社会变革带来的影响。本文通过使用Python语言所提供的BS4网页爬虫、Wordcloud词云统计、Jieba汉字词库等分析工具,对好莱坞科幻片《复仇者联盟》《头号玩家》和中国
科幻片《流浪地球》的网络影评进行了大数据挖掘,分析和总结了好莱坞科幻片成功的原因,以及中国科幻电影发展的不利因素和有利条件,从而对中国科幻电影发展的未来趋势提出思考和展望。
关键词
文本挖掘,科幻电影,因素分析,电影市场
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
超女/licenses/by/4.0/
1. 引言与文献综述
1.1. 引言
据北京新传智库研究院发布的《科幻片制作与市场研究报告》和统计数据显示,2010年以来我国科幻片票房收入整体呈现增长趋势,2014年我国科幻片票房达70.4亿元,首次突破70亿[1];2019年春节档电影《流浪地球》更是脱颖而出,被誉为是“开启了中国科幻元年”的“第一步硬科幻电影”。科幻电影作为目前市场上最重要的商业类型片之一,甚至可以说,一个国家的科幻电影的技术水平也从另一个侧面反映了这个国家的总体科研水平以及国民自身的科学文化素养。时下中国电影的发展确实取得了实质性突破,作为世界第二大电影大国,确定了中国电影在世界电影舞台和中国电影发展史上新的历史方位。但是,我们也应该看到中国科幻电影的发展绝非一帆风顺,2014年科幻片票房迎来里程碑式提升后,2015年票房下滑一个百分点,2016年科幻票房15.7亿元,跌至2010年以来的谷底。更严重的问题在于,即使在中国科幻电影票房高涨的时期,吸引国人掏腰包进影院的也大多是好莱坞科幻片,中国科幻片外因在进口片争夺市场,内因在制作水平拙劣,内外因共同作用导致成绩堪忧。观众对于科幻片的态度到底怎样,观众的评判标准和关注热点是什么,哪些因素可能会影响观众的观影体验,可以运用大数据对观众的态度进行探索,从而为中国科幻片的发展提供参考。
本文结合当前流行的Python语言所提供的BS4网页数据爬虫、Wordcloud词云统计、Jieba汉字词库等文本挖掘方法,选取了对国内外几部不同的科幻片的网络评论进行文本处理。先提取高频词汇,分析观众的关注热点,对几部影片进行比较。从而可以得到在大数据的支持下观众对于国内外科幻片的总体态度。再从豆瓣的2000条影评中提取《流浪地球》的关键词,出这部被称为中国科幻的创世之作中最让观众关注的方面。
1.2. 文献综述
纵观学界对中国科幻电影的发展存在的问题的研究可谓殊途同归:中国科幻电影与好莱坞电影在资金、技术、经验、商业度、工业自动化和想象力仍存在一定的差距。科幻片之所以好看,绝对不止在于那些光怪陆离的未来景象,更在于片中呈现出来的那些对新世界、新观念、新理论的建构,还有针对现实世界的各种投射、结构与思考。科幻片的编剧应该具备一定的科学理论基础、强大的逻辑建构与想象能力。
严自强等
王曼在《中外科幻电影发展现状》中针对中国科幻电影发展现状与好莱坞科幻片进行对比后指出中国科幻电影发展的不利因素:一是资金,科幻电影特效及道具制作耗资高昂,好莱坞影片一般是以千万上亿美元作为经费单位,而中国科幻电影由于票房风险大、制作周期长等缺乏资金支持,制作成本上的差距直接造成创作质量上的鸿沟。二是技术,中国科幻电影没有顶级特效制作,缺乏数字资产、工业化管理经验的双重积累。美国科幻片那些壮观的场面需要几十家公司的通力合作,而以中国的状况这种联合制作短期内难以实现。三是经验,中国科幻片是在20世纪80年代初随着科幻小说的繁荣而渐进起步,拍过的严格意义上的科幻片实在屈指可数,国外却是从1896年就揭开了科幻电影的序幕,发展了整整一个世纪,已经形成了几近流水线式的成熟影片生产制作流程;四是违和感,“违和感”是观
众接受中国科幻片的重要障碍,通俗来讲,由于中国观众长期形成了好莱坞式科幻片的思维,观众可能看到一个高科技场景中有中国元素时就会觉得别扭,我们国家本身缺乏创作科幻片的文化土壤,中国人内心缺乏与科技或机械的情感绑定;五是剧本,中国科幻小说的不发达,造成中国优秀科幻电影剧本的缺失。
剧作家对科学前沿的不敏感,对科幻小说的写作力不从心[2]。尽管我国科幻片发展与国外科幻片存在差距,但我们也不能妄自菲薄,甚至仅仅以好莱坞影片作为唯一标准,吸收别人的长处这句话并不假,但是我们也要有文化自信,从中国五千年的文化底蕴中汲取营养,陈红梅在《<;流浪地球>:末日逃亡的中国表达》一文中说到,相较于西方科幻电影,《流浪地球》以浓郁的东方特开启了承载国人情怀的浪漫逃亡之旅,描绘了一幅世界末日人类逃亡时的科幻图景,是一部充满了中国文化彩的“大片”[3]。
电影制作也需要对受众体进行深入了解,《科幻片制作与市场研究报告》调查显示,全类影片的受众男女比例为40.80%:59.20%,女性观众明显高于男性观众。科幻片男女比例为57.66%:42.34%,由此可见男女在科幻片的喜好上略有差距,男性对科幻片的兴趣更大。
2. 数据描述和方法
2.1. 中外三部电影热词对比
近来中国科幻片有崛起之势,我们选择2018~2019年中3部比较具有代表性的中外科幻电影作为数据挖掘的对象。其中《流浪地球》代表着中国当前科幻电影的制作水平;《复仇者联盟4》则是漫威系列的最新作品,在全球具有较高的认同;《头号玩家》则是根据恩斯特·克莱恩的同名小说改编,由著名导演史蒂文·斯皮尔伯格执导完成的科幻电影。这3部科幻电影都具有相当大的影响力,我们希望通过电影评论的分析来出它们获得成功的因素,研究中国科幻片吸引观众的原因,探究美国大片与中国科幻片的成功原因是否不同;它们的受众体是否不同;吸引观众的原因是否不同,以期望对中国科幻电影的发展做出一些贡献。
获取数据及数据预处理
我们使用BS4 + Wordcloud + Jieba数据采集器从网站采集了《流浪地球》《复仇者联盟4》和《头号玩家》的电影评论,对它们进行文本挖掘。具体流程是首先使用BS4的Urllib功能读取并解析网页,然后利用Wordcloud词云功能统计高频词汇。由于Jieba汉字词库在汉字处理上具有更大优势,所以将Wordcloud和Jieba二者结合使用效果更好,既能够统计词频,又能够对中文文本进行分词处理。
例如,“这代表中国电影的未来”分词成“这”“代表”“中国”“电影”“的”“未来”,然后Jieba 会滤句子里没有信息含量的停词,如“的”、“这”。分词的好坏将直接影响分析的准确性。为了进一步提取有效信息,我们对选出来的高频词进行了进一步的人工处理,剔除了“观点”、“充满”、“制作”等不能反映我们探究电影
成功因素和观众情感态度的词语,删除没有意义的高频词,截取排序前20的词制作了词频表,见表1。
严自强等Table 1. Word frequency list
表1.词频表
流浪地球复仇者联盟4 头号玩家词序
词频数词频数词频数
1 中国23 复联2
2 游戏29
2 未来12 英雄22 电影14
3 现实9 电影15 玩家13
4 源自 6 自己13 斯皮尔伯格9
5 人类
6 超级11 彩蛋9
6 钟声 5 钢铁11 世界8
7 折射 5 成为9 导演 6
8 电影 5 我们7 头号 5
9 世界 5 情怀7 商业片 5
10 科技 5 威漫7 未来 4
11 时代 5 世界 6 自己 4
12 文化 4 之后 5 闪灵 4
13 2019 4 杭州 5 实现 4
14 独特 4 2019 5 独有 3
15 发展 4 灭霸 5 浪漫 3
16 科幻 4 美国 5 题材 3
17 推动 4 宇宙 5 背景 3
18 思想 3 成长 5 感触 3
19 国外 3 托尼 5 一样 3演员李沁婚姻状况
和女生道歉最管用的话20 带来 3 谢幕 4 一切 3
我们利用Wordcloud依据统计的各景点的词频制作词云图,让统计结果更加直观,便于寻主要属性特征,我们制作得到了词云图,如图1~3所示。
图1. 词云:流浪地球
严自强 等
Figure 2. Wordcloud: Avengers Endgame 图2. 词云:复仇者联盟
Figure 3. Wordcloud: Ready Player One 图3. 词云:头号玩家
2.2. 总结热点热词
基于词频统计结果,我们发现这些词大部分都描述了电影是否卖座的几个原因和方面。于是我们把描述电影质量同一个方面的词组合并,提取出一个维度。如“带来”、“推动”、“成长”、“感触”等词都是描述观影收获或感受,我们便把这个维度称为“观影感受”;“闪灵”、“灭霸”、“钢铁”等都是讨论电影的情节或主题,我们便提取出“情节”这个维度。经过分类,我们把关键词分为四个维度,分别是:“情怀”、“情节、特或主题”、“带来的观影感受或收货”及其他因素,统计他们的词频及比重,见表2。
Table 2. Word frequency and proportion of dimensions 表2. 维度的词频及比重
维度
流浪地球
复仇者联盟4
头号玩家
词频
qq面板皮肤比重 词频 比重 词频 比重 情怀 44 37% 40 23% 30 22% 情节 41 34% 59 34% 62 46% 观影收获 25 21% 50 29% 26 19% 其他
9
8%
25
14%
17
13%
2.3. 流浪地球评论热词分析
获取数据及数据预处理
为了获取有关《流浪地球》的最新评价,尝试直接用URL
抓取评论,但是显示失败,我们发现这是
发布评论