随着国内各个高校招生数量的增加,直接导致毕业
生的数量急剧增长,大量毕业生面临就业难的问题,随
着社会信息化程度的提高,人们也进入了大数据时代,
针对上述情况,可以将数据挖掘技术应用于高校毕业生
的就业情况的预测和研究上,对往届毕业生就业信息数
据进行挖掘,能够为高校在教学计划的制定和素质能力
培养方面提供一定的理论依据,为即将毕业的学生提供
有针对性的就业指导[1]。提出的基于C4.5算法的预测模型将毕业生的就业情况的预测问题转变成多分类问题,
将毕业生的外语等级、计算机水平、是否担任过班干
部、在校成绩、专业对口以及综合能力作为自变量,将
就业情况作为因变量,以此来进行决策树模型的构建,
这种方法可以让人们更加便捷、科学地预测毕业生的就
业情况。
1决策树算法及其相关概念
1.1决策树算法
决策树(decision tree)是用于分类和预测的主要技
术,它着眼于从一组无规则的事例推理出决策树表示形
式的分类规则,采用自顶向下的递归方式,在决策树的
内部节点进行属性值比较,并根据不同的属性进行判断
从该节点向下分支,在决策树的叶节点得到结论[2],它主要包括ID3算法、C4.5算法和CART算法等。1.2C4.5算法
C4.5算法是利用熵原理的机器学习算法,采用分而治之的方法来构造决策树,基于信息增益率,即选择信息增益率最大的属性作为分类属性。信息增益率越高,数据分类能力越强[3]。相关计算公式如下: (1)信息熵(Ent(D)):p k为当前样本集合D中第k类样本所占的比例
,,信息熵是度量样本集合纯度最常用的指标。熵越小,样本纯度越高
,(1) (2)信息增益(G ain(D,a)):用来进行决策树的划分属性选择,用属性a来进行划分所获得的“纯度提升”即为信息增益
,(2) (3)信息增益率(Gain_ratio(D,a)):IV(a)称为属性a的“固有值”,属性a的可能取值越多,IV(a)的取值通常会越大,增益率反而越小[4]
,
(3)
,(4) 1.3剪枝处理
为了防止决策树算法出现“过拟合”现象,通常会进行剪枝处理,其中,决策树剪枝策略分为预剪枝法和后剪枝法。预剪枝法是在决策树的生成过程中来进行估计以提升泛化性能。后剪枝法是在决策树生成后自底向上处理的过程[5]。
2决策树算法的应用
2.1数据准备
主要影响毕业生就业情况的6种主要因素为英语等级、计算机水平、是否担任过班干部、在校成绩、专业作者简介:韩国淼(1995-),男,硕士,研究方向:智能数据处理。
基于决策树算法的毕业生就业预测研究
韩国淼
(辽宁工程技术大学软件学院,辽宁葫芦岛125105)
摘要:高校毕业生的就业问题一直是当下的热点问题,随着毕业生数量的急剧增多,就业的压力也随之增大,高校的毕业生所具备条件以及能力直接决定着学生本身的就业质量。针对这个问题,从国内某高校毕业生中的30个学生基本在校信息以及其就业情况,利用决策树算法中的C4.5算法对其进行分析和预
测,以此来获得影响毕业生就业情况的一些主要因素。经过所构建模型的测试,准确率达到89%,并通过模型可知,影响毕业生就业的关键因素是学生的综合能力。
关键词:毕业生就业;C4.5算法;预测
对口以及综合能力等。训练数据集如表1所示。
如表1所示,研究数据是从某高校本科毕业生就业情况统计获得,其中样本总数为30,其中21人作为训练样本数据,9人作为测试样本数据,并计算正确率。2.2数据预处理
首先根据数据样本中的数据,将英语等级水平和计
算机水平依次根据其等级分别分为高、中、低3个等级,数据经过预处理后,得到了如下数据表,如表2所示。
2.3C4.5算法构造决策树
(1)计算信息熵。在表2的处理后的21个训练样
本中,其中就业人数为11人,继续深造读研究生人数
为5人,未就业人数5人,所以,可计算出就业人数占
,
读研人数占比
,
未就业所占比例为
。根据上述公式(1)计算出的信息熵为:.
(2)计算信息增益。在计算各个属性的信息增益
前,需要先算出每个属性的信息熵,以属性“英语水平”为例,它被划分为3个等级高、中、低,使用它对D 进行划分,可分别记为D 高、D 中、D 低。则依据公式(1)可分别计算出信息熵为:
,同理计算
出Ent (D 高)和Ent (D 低)分别为0和0.99。然后根据公式(2)可计算出属性“英语水平”的信息增益为
:
(3)计算信息增益率。根据公式(3)和公式(4)以及
上述计算结果可计算出属性“英语水平”的信息增益率为
:
姓名英语水平计算机水平班级干部在校成绩专业对口综合能力就业情况安旭浩四级三级否良否优就业关育新无二级否良否差未就业王子豪四级二级是优是良就业王晶晶六级二级是优是良读研李猛无无否差否良未就业张佳研四级无是优是优读研郑育杰四级二级否良否良就业朱俊杰四级三级是良否良就业陈政四级二级否良是优就业张志强无二级否良否差未就业马占军四级无否良否优就业张文铎无二级是良是优就业王思宇无无否良否差未就业刘建新无二级否优否良就业飞四级三级否良是良就业宁雨彤四级二级否良否良读研韩齐四级无是差是差未就业张馨予六级二级否良是优读研王冰四级无否良是优就业韩旭
四级
二级
读研
孔令鹏无二级是优否优就业表1部分毕业生就业统计原始数据表
表2预处理后训练样本表
编号英语水平计算机水平班级干部在校成绩专业对口综合能力就业情况1中高否良否优就业
2低中
否良否差未就业3中中是优是良就业4高中是优是良读研5低低否差否良未就业
6中低是优是优读研7中中否良否良就业8中高是良否良就业9
中中否良是优就业10低中否良否差未就业11中
就业编号英语水平计算机水平班级干部在校成绩专业对口综合能力就业情况12低中是良是优就业
13低低否良否差未就业14低中否优否良就业15中高否良是良就业16中中否良否良读研17中低是差是差未就业18高中否优是优读研19中低否良是优就业20低中是优否优就业21
读研
综合能力
良差
在校成绩计算机水平
英语水平
高高高中
低低
中专业对口是是否读研
读研
就业
优良
良良良良
未就业未就业
未就业
班级干部未就业未就业
就业
就业就业就业就业就业
就业就业
中低是否读研
专业对口是是否否读研
读研
就业
就业
英语水平
同理可以计算出属性计算机水平、班级干部、在校成绩、专业对口以及综合能力的信息增益率分别为:
G ain_ratio(D ,计算机水平)=0.16;G ain_ratio(D ,在校成绩)=0.29;G ain_ratio(D ,综合能力)=0.38;G ain_ratio(D ,班级干部)=0.06;G ain_ratio(D ,专业对口)=0.13;
(4)建立决策树模型。由以上的计算结果可知,属
性“综合能力”的信息增益率最大,故将其作为决策树的根节点,以此节点进行决策树的划分,同理,从根节点向下的各个分支节点依次按照此计算方法得出,最终得出了由C4.5算法构建的决策树,如图1所示。采用后剪枝法修剪后得到的决策树如图2所示。
2.4测试模型
为了验证模型的准确性,根据图3的决策树对9个
测试数据样本进行了验证测试,其中8个数据与所构建的决策树模型的结果一致,正确率到达89%。根据结果表明该预测模型具有较好的预测效果,并且可以对应届
毕业生就业情况预测提供一定参考价值。通过对毕业生的就业情况的预测可知,对毕业生就业影响最重要的因素是个人的综合能力,其次就是学生的计算机水平和英语水平,这3个重要因素直接决定了毕业生的就业情况。通过决策树模型对学生就业情况的预测,这不仅有利于高校对学生的就业指导,也能让毕业生清楚地认识到应该具备哪些技能才能让在就业时拥有竞争力。
3结语
将决策树C4.5算法应用于毕业生的就业情况的预
测分析,通过对往年毕业生就业数据的处理,并以此数据为依据进行决策树模型的建立。实验结果表明,基于C4.5算法的预测模型简单、快速。为毕业生就业情况的预测提供了一定的科学依据。不足之处是模型中的样本训练数据较少,训练出的结果可能与真实情况有误差,并且没有充分考虑到性别、专业对口等其他因素,还有
就是构建决策树时没有充分考虑属性之间的相互影响,
例如大多数在校成绩的优秀的学生,他的英语水平一般
都是较高的,此外,在就业情况的统计上没有将读研的学生归入到就业的类别中等,这些因素都影响到决策树模型的构建,进而影响到了预测的效果[6]。
参考文献
[1]郝风平.决策树算法在高校毕业生管理中的应用[D].东南大学,2018,(12):1-3.
[2]冯少荣.决策树算法的研究与改进[J].厦门大学
学报(自然科学版),2007,(04):496-500.[3]周志华.机器学习[M].北京:清华大学出版社,
2016.
[4]哈林顿.机器学习实战[M].北京:人民邮电出版
社,2013.
[5]赵建民,黄珊,王梅,刘澎.改进的C4.5算法的研
究与应用[J].计算机与数字工程,2019,47(02):
261-265.
[6]李振兴,韩丽娜,史楠.基于决策树算法的电影票
房预测研究[J].智能计算机与应用,2019,9
(04):132-135+139.
[7]陈君涛.高校毕业生就业预测算法研究分析[J].
现代信息科技,2019,3(12):86-87+90.
[8]孙晓璇,杨家娥,李雅峰.基于决策树ID3算法的
高职生就业预测分析[J].电脑编程技巧与维护,
2015,(02):15-16+35.
图1毕业生就业情况预测决策树模型
图2毕业生就业情况预测修剪后的决策树综合能力
在校成绩就业
未就业
中低
英语水平
读研
差优计算机水平
未就业
未就业
未就业
就业
高低
高软件开发效率的效果。在今后,该项技术将成为软件测试主流技术。4.3测试范围不断拓展
为保证测试精准度,在今后的软件测试中,需要做
好测试范围拓展,要通过对测试数据的科学性分析,为软件开发全过程提供可靠支持与保障。同时,在实施测试范围拓展时,需要做好事后控制以及事前预防工作,要通过对各种潜在缺点的有意识规避,做好测试成本控制,保证软件测试效益可以达到切实提升。4.4云计算、物联网广泛运用
现代企业极为注重云计算技术应用,多数企业都将
自身业务数据储存放置在了云端之中。就目前用户应用程序运用情况来看,超过75%的程序都是以云服务为基础展开的。而物联网布局模式的推广,也使业务决策变得更加精准、智能。以云端、物联网为基础展开软件测试,能够完成可拓展测试以及安全性分析等测试,能够对设备版本兼容性以及授权准确性等展开检测,并做好数据评估。
4.5大数据测试更加成熟
大数据技术的运用,为软件测试带来了更多有利支
持,技术在软件测试中的重要性也变得更加突出。在今后,大数据技术会在软件测试中起到更多理想的作用,会按照各种特征,像重复性、一致性等,对数据质量展开检查。同时也会对TB 级数据形成有效处理,会为商用集提供更加优质的服务。
5结语
鉴于软件测试技术在软件开发与使用中所起到的重
要作用,有关机构应进一步加强对软件测试技术的研究力度。应在明确软件测试流程与基本技术的基础上,结合软件测试现状,对技术今后发展做出预估,以便按照技术应用与发展趋势,制定出较为合理的技术优化与完善方案,确保各项技术应用不足问题可以得到妥善处理,以便实现对测试技术的有效运用,保障技术所具有功能可以得到完全性发挥,从而实现对软件行业发展的有效推动。
参考文献
[1]汤希祝.刍议大数据背景下软件测试技术的发展趋
势[J].信息系统工程,2019,(006):47.[2]任力子,王婉人,高优.探讨计算机软件测试的相
关技术应用[J].信息系统工程,2017,(5).[3]杨晓明,刘祯.计算机软件中安全漏洞检测技术的应用研究[J].无线互联科技,2018,(10).[4]袁瑞铭,巨汉基,汪萍萍,等.基于黑盒测试技术
的智能电能表软件测试方法研究[J].电测与仪表,
2017,55(22).
[5]潘宇.浅析云计算环境下的软件测试服务[J].科
技与创新,2017,(018):52-52,55.[6]张文娴.软件测试自动化中构建可维护脚本技术[J].电子技术与软件工程,2017,
(24):62.
[7]王旸.计算机软件基于多平台的测试方法研究[J].
电脑知识与技术,2017,(34):242-243.
[9]董秀英,柏小丽,汤铁.改进的BP 神经网络预
测高校毕业生就业能力[J].宜宾学院学报,2015,
15(06):93-96.
[10]马茂源.
基于改进半监督自训练方法的高校毕业
生就业预测应用研究[D].重庆师范大学,2019.
[11]侯士兵,倪邦辉,玄雪梅.上海高校毕业生2018
年就业形势预测研究[J].中国大学生就业,2017,(23):34-38.
[12]李琦.基于机器学习的毕业生就业预测模型研究与
应用[D].中国科学院大学(中国科学院沈阳计算
技术研究所),2019.
[13]徐旭冉,涂娟娟.基于决策树算法的空气质量预测
系统[J].电子设计工程,2019,27(09):39-42.
[14]李琦,孙咏,焦艳菲,高岑,王美吉.基于HMIGW
特征选择和XGBoost 的毕业生就业预测方法[J].
计算机系统应用,2019,28(06):203-208.
[15]Li Li.Forecast of Student Achievement Variation Trend
Based on C4.5Decision Tree [C].Science and Engi⁃neering Research Center.Proceedings of 2015Interna⁃tional Conference on Artificial Intelligence and Indus⁃trial Engineering (AIIE 2015).Science and Engi⁃neering Research Center:Science and Engineering
张罄予Research Center,2015:398-401.
(上接第63页
)