3Co mmunications Wo rld We ekly
识别的网络
网络安全对图像识别技术进行改进及优化,将进一步保障网络内容和信息安全。
优化图像识别技术保障网络内容安全
中国移动通信集团设计院有限公司|丁亦志随着网络技术和多媒体技术的发展,互联网上信息的监督和控制越来越重要。尤其目前互联网情图像、情录像的传播问题越来越严重,为有效杜绝此现象,笔者提出一种对传统肤分割算法的改进方法,现网应用效果表明,该方法能够达到85%以上的准确率。
不良信息拨测系统仍待加强围绕手机网络淫秽信息泛滥问题,媒体曾经进行了大量的报道,将手机网络淫秽信息泛滥问题直指通信运营商。报道称通过手机上网,可以访问大量黄独立WAP 网站,运营商没有履行好封堵的职责;在部分中存在运营商业务链接,指责运营商从中牟利,并为提供代收费;还发现有黄独立WAP 网站的I P 地址属于运营商IDC 机房。目前三家运营商都在与SP 的合作办法中明确严格禁止合作伙伴提供淫秽情违法内容,以及开展任何形式的代收费服务,一经发现则进行违约处理,直至终止合作。但是任何支付手段都不可能100%鉴别交易本身是否合法。个别站采用“挂羊头卖狗肉”的办法,用户表面上订购的是合法业务,实际得到的却是情内容,这让运营商根本无法预防,只能靠事后的举报和处理。
手机上网涉黄问题对未成年人危害巨大,打击站人人有责。无论主管部门,还是运营商、IDC 、手机应用提供者等都有责任和义务营造良好的移动互联网环境。
尽管通过不良信息拨测系统等技术手段在打击淫秽情内容中发挥了重要作用,但与严峻的整治手机淫秽情信息的工作任务相比,还面临着很多难题,拨测系统在提高识别准确率方面还需要继续提升,在应对不断更新的网络违法手段方面还需进一步加强技术研究。特别是其中的关键核心技术图像识别算法面临准确率低、判别速度慢等一系列问题,急需优化。
六步优化图像识别手段
6年,美国加州大学B y 分校计算机系的D F y 教授等人利用计算机视觉和图像理解技术对情图片识别进行了研究,首次提出通过对图片肤分割和人体姿态的几何特征检测来判别图片是否含有情内容。该系统通过肤分割算法提取图像中的皮肤区域,然后对这些区域所构成的人体结构关系进行分析,检测人体的各个部位及其相互关系,最后得到对情图像的识别。1998年,美国HP 研究院剑桥实验室的M.J.J ones 等人提出统计肤模型,并在此基础上采用神经网络分类器实现了一个成人图像识别系统。尽管研究人员提出了各种各样的技术来识别成人图像,然而成人图像识别却一直是一个技术难题,其识别的精度和速度都有待大幅度提高。笔者采用层次化识别框架,利用图像预处理、图像特征提取与向量表示、分类模型训练与识别分层逐级识别成人图像。图像的预处理包括对图像大小的
调整、图像光照的消除;由于皮肤是成人图像最重要的视觉特征,首先应通过肤检测确定出含有肤的候选图像,然后通过对肤区域分析,确定其中符合人体皮肤纹理特性区域的比例,进而分割出图像的皮肤区域,分离出不含光滑肤区域的正常图像,对皮肤区域信息进行特征提取与向量描述。最后在对皮肤区域提取低层视觉特征后,将得到图像的特征向量送到分类模型中进行训练与识别。这样经过多层处理,正常图像被逐级检测出来,成人图像最后由图像分类器进行识别。这种层次化识别方法加快了正常图像的处理速度,也符合在应用中大量存在的是正常图像的实际情况。图像分析过程为:第一,系统在获取图片后,先通过双线性插值法进行图片大小的标准化处理,将图片按比例进行标准化;第二,进行大小标准化后,通过Grey W orld 彩均衡方法对图片进行光照处理,从而对光线进行补偿处理;其三,通过颜及纹理的识别从而进行皮肤区域的提取,从而将非处理信息进行排除;其四,在进行提取时,通过弹性图匹配方会对人脸进行识别,当有人脸占据图像的百分比超过指定系数时,即可排除非情图像;第五,进行降噪处理,将作用不大的皮肤区域或会产生干扰的区域去除;第六,关键的皮肤区域按维度进行向量化处理,从而转变为可被图像处理模型识别的数据,并送入模型中。优化方法提高系统识别率26%本算法于今年3月对实用现网数据进行了测试。通过该算法对随机抓取的130995张图片进行自动识别,并将其结果与人工分拣结果进行对比。在系统误检率仅提高0.76%的条件下,系统识别率提高了约26.05%(如表所示)。自3G 牌照发放以来,手机用户不再满足于语音和短信这类传统业务,而是对多媒体内容的关注度逐渐增高,譬如手机报、手机视频、手机阅读、手机上网等业务都取得了长足的发展,也进一步推动运营商从服务提供商向内容提供商的角
进行转变。在业务快速发展的同时,同步建设内容审核系统已经成为趋势,而图片识别技术将会是其重要的组成部分,其应用领域不仅仅局限于互联网内容,更可以为彩信、WAP 浏览、手机视频等各类新型多媒体业务内容提供服务。在网络信息飞速膨胀,网上不良内容泛滥情况下,情图像识别技术已成为一个具有重大应用价值的研究方向。根据情图像的显著特征,建立层次化识别框架,利用图像预处理、图像的特征提取与向量表示、分类模型训练与识别分层逐级识别成人图像,构造了一个多层次的过滤方法。本文的方法虽然取得的较好的效果,但还有许多需要改进的地方。如何更加有效抑制表情、遮掩和姿态变化等因素对识别率的影响还有待进一步解决。人工分拣结果原有算法改进后算法数量比率数量比率情图片检出量及识别率3711229161.74%325887.79%正常图片检出数量及误检率5%656%处理速度(单位张秒)36表改进后的图像识别技术与传统图像识别技术的参数比较9
hao i n gwei cww 201120199e rke le av id    A.o rs th 127284217  4.1018  4.8:/49