第28卷第11期管理评论Vol.28,No.112016年11月ManagementReviewNov.,2016
基于支持向量机的治安高危人员风险预警方法
张㊀强1,2㊀何乐平1
(1.中国科学院大学经济与管理学院,北京100190;2.江西省吉安市人民政府,吉安343000)摘要:随着社会经济快速发展,城市人口流动性增加,社会治安面临新的挑战㊂提高对治安高危
人员风险预警能力,有助于公安机关高效应对复杂多变的公共安全形势㊂本文采用支持向量机
构建风险预警模型,探求高危人员风险预警的可行方法,并进行实证分析㊂结果显示该方法对
安以轩家庭背景治安高危人员风险预警效果显著,对公安机关的情报研判具有较高的实用性㊂
关键词:治安高危人员;公共安全;风险预警;支持向量机
收稿日期:2016-05-09
作者简介:张强,中国科学院大学经济与管理学院博士研究生;何乐平,中国科学院大学经济与管理学院博士研究生㊂
引㊀言
当前我国正处于经济转轨㊁社会转型时期,治安管理的复杂性和艰巨性日益凸显,公共安全和治安秩序面临新的挑战㊂其中,敌视社会人员㊁社会闲散人员㊁两劳(判刑㊁劳教)无业人员㊁人员㊁窜至外地的逃犯等[1]治安高危人员因对社会稳定存有较高潜在威胁而被公安机关高度关注㊂从我国治安现状来看,治安高危人员流窜作案㊁重复作案㊁职业作案等特征明显,甚至形成由同户籍地人员所构成的高危人,对社会治安构成很大威胁㊂有效预警并干预治安高危人员可能对社会造成的伤害,能够极大增强社会治安效果㊂犯罪预防和侦查㊁制裁行动是警务干预不可偏废的两个方面,然而在实践中着重打击而轻预警的问题普遍,特别是公安机关对治安高危人员的监管工作中存在情况掌握不清㊁漏管失控的情况,因此迫切需要在掌握治安高危人员基本情况和行动轨迹的基础上,利用公安工作中积累的数据信息,推动警务干预模式的转型,对高危人员的潜在犯罪行为实施有效风险预警和控制㊂
目前,公安机关在治安工作实践中积极运用信息开展重点人动态管控㊁重大案事件预警等警务干预,提高打击犯罪㊁防范安全风险能力㊂在高危人员监管方面,主要通过整合已有内部信息与社会信息,林心如主演的电视剧
进行信息关联查询㊁智能检索㊁多维分析及碰撞对比,从而对治安高危人员的行踪轨迹进行分析,判断其风险程度㊂其中,内部信息主要包括实有人口㊁出入境㊁车辆进出卡口㊁人车物办证㊁案事件㊁视频监控等信息,社会信息主要包括民航㊁电信㊁银行㊁税务等信息㊂公安机关可以根据风险判断结果,提出相应预警措施的实施建议或指令,提高对违法犯罪活动的预先发现和控制能力㊂然而目前治安风险评估缺少足够的科学方法支撑,情报信息分析研判的预警预防作用不明显㊂在实际治安工作中,对于上述信息的整合和分析多为犯罪行为发生后的被动式调查工作,完整意义上的提前判断潜在风险的预警工作仍偏少㊂
本文以南昌市2010-2014年的前科和涉毒人员信息为数据,基于支持向量机提出了一个效果显著㊁可在实际工作中应用的治安高危人员风险预警方法,对公安机关情报研判具有较高的实用性㊂
全文结构如下:第二部分是文献综述,第三部分是治安高危人员风险控制现状分析,第四部分是实证分析,第五部分是结论与对策建议㊂
文献综述
1㊁犯罪风险预警研究社会治安事件是违法犯罪者在特定时空维度内进行的,大部分案事件可以基于形态㊁时间㊁空间和集等综合情况形成总量特征㊂目前学者主要从犯罪热点时空分布㊁治安高危人员管控机制两方面研究和预测犯罪行为㊂其中,有学者尝试采用空间数据挖掘㊁神经网络㊁模糊聚类
等方法对犯罪热点时空的分布模式㊁成因㊁时
246㊀管理评论第28卷空转移及预测等方面进行研究㊂如Grubesic[2]㊁Tompson和Townsley[3]分别采用模糊聚类方法和空间聚类方
法对犯罪热点进行识别㊂Anderesed[4]㊁Wang[5]等利用空间回归分析方法,探究了犯罪热点形成与社会㊁经济㊁环境之间的关系㊂陈鹏等[6]基于Agent的犯罪模拟研究,提出了一种具有信息反馈机制的时空犯罪热点预测模型,Li等[7]通过分析以往犯罪数据的时间预测犯罪趋势,建立了智能决策支持模型框架㊂于红志等[8]针对犯罪影响因素多且关系复杂的特点,用改进的模糊BP神经网络方法对犯罪进行预测,Almanie等[9]利用Apriori算法得到频繁犯罪模式,并采用决策树和朴素贝叶斯分类器方法帮助在特定的时间㊁位置预测犯罪事件,Sujatha和Ezhilmaran[10]对预测犯罪地点采用了有效应力强度因子的挖掘算法㊂孙菲菲等[11]基于模型组合分类器随机森林,结合机器学习技术在犯罪预测中的应用现状,提出了一种用于预测犯罪的改进的分类算法㊂付举磊等[12]基于社会网络分析对恐怖行为的特征进行了时空分析㊂
关于治安高危人员管控机制的研究相对较少㊂陈心歌[13]分析了北京市流动人口犯罪的现状与原因,提出应在平等对待流动人口㊁控制人口盲目流动的同时,保障流动人口的基本权益㊂杨莉莉和杨
永川[14]根据社会网络的中心性指标提出一种犯罪组织重点人员判定和挖掘犯罪组织成员间关系的方法,具有较好的性能和挖掘效果㊂吴绍忠[15]提出公安情报预警机制的实现需要以信息机制㊁数据处置机制㊁评估机制㊁鉴定机制和发布机制为基础,理论体系㊁组织体系㊁人员体系和沟通体系是预警机制改进的重点㊂沈晓磊[16]建立了动态管控全过程的重点人员 电子档案库 ,实现集中直观展现重点人员电子档案的功能,有效提升重点人管控效率㊂
2、支持向量机的应用研究
自1995年Vapnik[17]建立完整的支持向量机(SupportVectorMachine)理论以来,该方法受到了国内外的关注㊂支持向量机可看作一种广义的线性分类器,其基本思想是通过非线性变换将输入空间变化到一个高维的特征空间,并在新空间中寻最优的线性分界面,广泛用于综合评价㊁预测等领域㊂如Kalyani和Swarup[18]对电力系统实时运行的风险进行了评估和分类,胡海清等[19]对中小企业信用风险进行了评估,迟国泰等[20]通过支持向量机方法构建了农户小额贷款的信用评价模型,刘樑等[21]利用多层次模糊综合评价法与态势分析法,提出针对突发事件的定性定量的综合型预警模型㊂陈鹏等[22]在模糊信息粒化基础上进行支持向量回归分析,有效地对侵财类刑事案件时序数据进行逼近与拟合,实现了较好的犯罪预测效果㊂商丽媛和谭清美[23]将支持向量机方法应用于突发事件的分级问题,为决策者准确地进行突发事件分级提供科学依据㊂目前针对犯罪风险预警研究主要针对犯罪热点的空间分布或时段
分布规律,或将犯罪时间作为犯罪的一个属性维度进行研究[24]㊂对治安高危人员的研究集中于现状和原因探究阶段,对风险识别和判断问题研究较少,属于起步阶段,未形成一个专门的测算方法和体系,也没有建立一个共识度高㊁权威的测算方法和体系㊂支持向量机因具备良好的性质,被广泛应用于预测领域,但对犯罪情报信息的研究集中于对突发事件的分级及短时期内高发案件的预测,对治安高危人员的关注不足㊂为此,本文将在结合信息化条件的风险控制分析基础上,运用支持向量机建立预警模型,对治安高危人员的风险预警进行研究㊂
治安高危人员风险控制现状分析
肉饼伴随社会信息化的快速发展,数据信息已容纳了社会构成的各个方面,给人们带来极大便利㊂治安高危人员的日常行为和危害行为等均可以被记录,这些数据记录与其他相关信息产生实时㊁动态交互关联,公安机关可以利用信息的身份识别㊁定时定位㊁联结纽带㊁行为再现等功能,追踪治安高危人员的轨迹㊁关注其异常行动,从而对其行为进行风险评估㊂一旦发现异常,公安机关可以做到提前干预㊂此外,数据记录及交互关联的信息可以作为犯罪行为发生后的犯罪证明㊂
治安高危人员风险的识别㊁判断㊁评估和预警㊁介入㊁治理等可以形成一个动态的㊁完整的风险控制体系㊂目前运用最多的是四风险区分和预警方法,该方法通过红㊁橙㊁黄㊁蓝四种颜对警情进行逐级区分,其中红预警为最高预警级别㊂根据预警级别分类,提醒公安机关相关人员有针对性的进行警力布控㊂这种方法衡量风险的标准和界限比较模糊,难以达到完整意义上的风险控制目的㊂
大量预警信息㊁管控信息㊁轨迹信息和背景信息生成后,需要进一步地识别和判断风险发生的时间㊁地点㊁内容㊁程度等,否则预警研判的实际效果将极为有限的㊂为此,地方公安机关进行了很多探索,通过提供可自
第11期张㊀强,等:基于支持向量机的治安高危人员风险预警方法247
定义业务分析需求,使预警从静态研判转变为动态研判,突破了四预警方法㊂如根据前科劣迹㊁行为表现㊁社交关系㊁生活环境㊁危险程度等信息,分别对不同类别的治安高危人员设定基本风险分值,再依据高危人员的活动情况和特定行为的异常㊁次数㊁频度等进行动态赋值,最后综合成一个可动态升降的分值以识别风险程度㊂由于高危人员在不同地区㊁时段㊁背景下活动所反映的动机和表现不同,各层级㊁各地区㊁各警种研判的内容和重点亦有所区别,设定预警模型趋于开放式㊂
在设定风险量化赋值㊁建立动态预警模型,以及确定高危人员不同风险的预警标准时,存在形成规则㊁有效测算的问题㊂目前,规则的制定建立在长期经验积累的基础上,由警方凭着实践判断给予人工赋值㊂测算方法一般为对量化的分值进行简单加减处理㊂在实际应用中,因可研判数据存在着较大差异并且不光滑,通过简单加减处理并且依据经验做出的人工赋值,与准确反映风险程度的要求相差甚远㊂如何选择科学的测算方法得出合理的风险测度结果,是公安系统提高动态风险预警能力㊁加强高
安徽美食
危人员风险控制的现实需求㊂
实证分析
本文建立高危人员风险预警模型,分为数据预处理㊁预警模型学习㊁结果验证与解释3个步骤,其中数据预处理包括数据提取和清理㊁数据量化2部分,如图1所示:
图1 高危人员风险模型搭建步骤图
1㊁数据提取㊁清理和量化
本文从公安数据库中提取静态及动态2类数据,其中静态数据包括性别㊁年龄㊁职业㊁婚姻等信息,动态数据包括旅店住宿㊁暂住登记㊁民航离进港等信息㊂由于存在大量不完整和不一致数据,对数据进行了补充空缺值,识别孤立点㊁消除噪声,纠正数据中的不一致等数据清洗工作㊂
经过数据清洗任务后,对属性信息进行量化处理㊂首先定义 风险测度值p , 风险测度值p 指的是可计算可测量的犯罪风险度量值,用来评估某项属性下特定值对应的风险度度量㊂本文采用概率密度来估计某项属性值对应的风险测度值㊂以高危人员中人员性别属性值量化为例,性别属性值有2个(k=2):男㊁女㊂本文研究收集了南昌市2010-2014年的人员记录15458条,即n=15458;其中,性别属性值为男的有m1=12931人,性别属性值为女的有m2=2527人,则属性值为男的对应风险测度值为:p1=m1/n=0 8365,属性值为女的对应风险测度值为p2=m2/n=0 1635㊂
2㊁预警模型构建
本文采用支持向量机构建预警模型㊂支持向量机作为一种基于统计学习理论的机器学习算法,具有坚
实的理论基础和优良的应用推广能力,在手写数字识别㊁语音识别㊁人脸图像识别等方面得到了成功的应用㊂在高危人员风险测算中,存在数据获取难㊁数据量小㊁数据不完整等情况㊂支持向量机方法具有出小样本学习性能和很好的泛化能力,非常适合高危人员的风险测算㊂
假设有n个训练样本集(xi,yi),i=1, ,n,xiɪRd,其中,yi={+1,-1}为类别编号,xi为训练样本的特征向量,可以看成是d维空间中的一个点,把训练样本按类别分开的最优分类超平面wTx=b可以通过最大化几
248㊀管理评论第28卷何间隔(GeometricMargin)得到:
maxw,b
1 w
妖啸九天
s.t.yi(wTxi-b)ȡ1,i=1, ,n其中, g 是向量的二范数㊂然而,在大多数情况下,原始的训练样本点并不完全线性可分㊂为了解决这个问题,一般的做法是引入松弛变量ξi和规范参数C来定义软间隔(SoftMargin),也就是广义最优分类面:
minw,b12 w 2+Cðni=1
ξi,s.t.yi(wTxi-b)ȡ1-ξi,i=1, ,n.㊀㊀利用Lagrange优化方法可以把上述最优化分类面问题转化为其对偶问题,最终得到最优分类函数为:
f(x)=sgn{(wTx)+b}=sgnðni=1
α∗iyi(xi㊃x)+b∗{}㊀㊀其中,α∗i为与支持向量对应的Lagrange乘子,b∗是分类阈值㊂最优分类面主要针对线性分类问题,而对于非线性分类问题,可以通过非线性变换函数ϕ(x)把原始特征向量转换到高维特征空间,从而把原始特征空间中的非线性分类问题转换为高维特征空间中的线性分类问题㊂此时,最优分类函数变为:
f(x)=sgn(ðni=1α∗iyi(ϕ(xi)㊃ϕ(x))+b∗)㊀㊀一般支持向量机都是针对两类问题,存在正类样本和负类样本㊂单类问题是指训练样本中只有一类目标数据,其他非目标数据缺少或无法获取㊂在公安数据里面,只有被抓获的确定为犯罪人的详细信息,而无法获
取普通公民的信息,因此高危人员风险预警中只存在单类数据,即只有被抓获的确定为犯罪人的信息㊂为了实现单类下的风险预警,我们采用支持向量机模型来进行风险预警㊂3㊁实例验证和结果分析本文采用南昌市2010-2014年的前科和涉毒人员信息为实验数据,前科人员包括暴力犯罪前科和侵财犯罪前科2类人员,涉毒人员包括和制2类人员㊂由于数据存在信息缺少等情况,从前科和涉毒人员数据中各提取10000条记录作为训练数据,另外各提取1000人信息作为测
试数据来评测模型的准确性㊂
在提取出10000条高危人员特征后,需要给出每一个重点人训练样本的潜在风险性㊂由于高危人员的犯罪类型不同,其再犯罪可能性㊁潜在风险和综合风险度也不同㊂根据经验统计,可以得到潜在风险的计算公式(见表1):表1 两类高危人员潜在风险计算
前科人员
一般性侵财:严重暴力
涉毒人员:制再犯罪可能性
10ʒ15ʒ1潜在危险性
1ʒ21ʒ5综合风险度0 62ʒ0 380 5ʒ0 5
注:综合风险度计算公式:综合风险度=0 5∗再犯罪可能性+0 5∗潜在危险性㊂
根据上述计算公式,我们可以计算得到:一般性侵财人员的综合风险度(归于化到0 1之间)为:
1011ˑ0 5+13ˑ0 5=0 6212,严重暴力的综合风险为:111ˑ0 5+23ˑ0 5=0
3788㊂人员综合风险度为:56ˑ0 5+16ˑ0 5=0 5,制人员的综合风险度为:16ˑ0 5+56ˑ0 5=0 5㊂根据10000条记录训练得到高危人员风险预警模型后,随机抽取1000条记录作为测试样本㊂高危人员
风险预警效果可以用平均绝对误差(MeanAbsoluteError)㊁绝对标准误差(StandardDeviationofAbsoluteError)㊁预警准确率等性能指标进行衡量㊂
第11期张㊀强,等:基于支持向量机的治安高危人员风险预警方法249
㊀(1)平均绝对误差
平均绝对误差是预测精度最为简单的评价指标,主要用来度量预测值跟实际值之间的距离,其计算公式表示如下:
MAE=1nðn1fi-yi
其中,fi表示第i个样本的预测值,yi表示第i样本的真实值㊂
(2)绝对误差标准差
平均绝对误差仅能从总体上反映预测值跟实际值之间的距离,不能反映误差的分布情况㊂绝对误差标准差是各绝对误差偏离平均数距离的平均数,能反映回归误差的离散程度,计算公式如下:
σ=1nðn1(fi-yi-MAE)2
㊀㊀总的来说,绝对误差标准差是绝对误差平均值分散程度的一种度量,标准差越小说明绝对误差越接近于平均值,预测结果越稳定㊂
(3)综合风险度准确率
为了评估算法的准确率,采用综合风险度差阈值的方法,定义准确率为:
A=Ne<T/N
其中Ne<T为综合风险度估计误差小于T的测试样本个数,N是测试样本的总个数㊂
本文分别利用平均绝对误差㊁绝对误差标准差㊁综合风险度准确率3个指标对该预警模型进行了性能评测,结果见表2㊁图2㊂孙菲菲
表2㊀高危人员风险预警效果性能指标
前科人员涉毒人员
前科侵财前科暴力制平均绝对误差㊀0 11030 0670 09630 0917
绝对误差标准差0 0210 0150 00970 0113
各类人员的平均绝对误差在0 1左右,特别是前科暴力人员仅为0 07,预警模型预测值与实际值之间的差距很小㊂前科侵财人员的绝对误差标准差为0 021,其他各类人员的绝对误差标准差在0 01左右,预警模型预测值总体接近平均值且较稳定㊂从准确率预警结果(见图2)可以看出,阈值越大准确率越高㊂阈值达到0 15的时候,准确率达到在90%以上㊂但阈值越大,相应的误判率(把低风险度高危人员预测为高风险度高危人员的比例)也越大,因此,高危人员风险预测是具体实施警务干预研究的重要抓手,要根据实际情况如警力是否充分㊁数据条件和误报的影响等来综合考虑阈值的设定㊂
图2㊀高危人员综合风险预警准确率
结论与对策建议
本文研究表明,采用支持向量机来构建高危人员风险预警模型,预警效果显著㊂公安机关可以通过治安