(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202210385546.8
(22)申请日 2022.04.13
(71)申请人 江苏省联合征信有限公司
地址 210000 江苏省南京市建邺区江东中
路373号20层
(72)发明人 于航 钱吟霄 倪伟渊 黄乐平 
茅天天 朱琨 
(74)专利代理机构 南京众联专利代理有限公司
32206
专利代理师 叶涓涓
(51)Int.Cl.
G06Q  30/00(2012.01)
G06Q  50/00(2012.01)
G06F  16/36(2019.01)
(54)发明名称
基于知识图谱识别空壳公司的方法及系统
(57)摘要
本发明公开了基于知识图谱识别空壳公司
的方法及系统,为识别空壳企业提供了切实可行
的方案。本发明通过企业属性,利用知识图谱将
目标企业划入企业社区并生成社区的关联特征
指数,基于信贷申请数据训练而成的模型对目标
企业经营活力进行评分,然后根据目标企业所在
社区的关联特征指数与经营活力评分推断其是
否为空壳企业,并能够对在惠企平台申请补贴、
贷款的空壳企业进行预警。权利要求书2页  说明书6页  附图2页CN 115115380 A 2022.09.27
C N  115115380
A
1.基于知识图谱识别空壳公司的方法,其特征在于,包括如下步骤:
步骤一,对企业间关系进行关联,具体包括:
生成系统中所有企业两两之间的一级关联特征,遍历所有一级关联特征不为0的组合,生成每组两个企业间的二级和三级关联特征,计算每组两个企业的关联特征之和;关联特征分为三类,一级关联特征包括人员、、登录设备,其中人员包括法人、最终受益人、股东、高管;包括工商注册地址、工商注册电话、登录注册电话;登录设备包括登录IP、MAC、IMEI;二级关联特征包括注册资本、实缴资本、注册时间、核准时间、企业类型、行业类型、经营范围、登记机关;三级关联特征包括一级特征和二级特征的变更时间和变更内容;
步骤二,通过图谱模块度与社区划分算法划分社区,得到最大化图谱模块度的社区划分,并计算每个社区的关联特征指数,具体包括:
两个顶点g和h之间边的权重为二者关联特征之和F(g,h),即
F(g,h)=F1(g,h)+F2(g,h)+F3(g,h)
将每个社区内所有连接顶点的边的权重之和,作为每个社区对应的内部关联特征和,将所有社区的上述内部关联特征和之和,作为社区网络关联特征和;将所有连接不同社区的两个顶点所对应的边的权重之和,作为社区间关联特征和;将上述社区网络关联特征和与上述社区间关联特征和之差,作为该
图谱的模块度;通过最大化图谱模块度的算法进行社区划分;完成社区划分后,计算每个社区的关联特征指数,用于标识每个社区企业关联关系的强度;每个社区的关联特征指数=该社区内部关联特征和/该社区顶点数量;
步骤三,通过经营活力评分模型对目标企业的经营活力进行评分,具体包括:
经营活力评分模型获取目标企业的历史数据及企业所属行业的行业数据;依据所述的历史数据和行业数据,获得所述目标企业和所述行业的各维度数据在五个预设时间段内对应的平均值,通过所述目标企业平均值/行业平均值确定五个预设时间段内目标企业各维度数据在行业内的等级指标;通过目标企业在行业内的等级在五个预设时间段内的变化,确定企业各维度数据的趋势指标;将目标企业的等级指标、趋势指标以及行业类型作为特征向量输入经营活力评分模型,输出所述目标企业的经营活力评分;
步骤四,从预设的数据库中获取空壳样本企业的经营活力评分以及其所在社区的关联特征指数,通过非线性Logistic回归拟合分类,确定样本中空壳企业活力评分与所在社区关联特征指数间的拟合曲线,获取曲线下方的部分为空壳预警区域并进行空壳预警。
2.根据权利要求1所述的基于知识图谱识别空壳公司的方法,其特征在于,企业两两之间的各级关联特征计算方法如下:
两个工商注册企业g,h间一级特征关联特征通过下式计算:
其中μ、ρ、σ为S、C、E下关联特征的预设权重;
如果两个工商注册企业间F1不为0,则计算两个实体的二级关联特征如下:
其中τ为关联特征A的预设权重;
如果两个工商注册企业间的F1不为0,则计算两个实体的三级关联特征如下:
其中和ω为关联特征U和V的预设权重。
3.根据权利要求1所述的基于知识图谱识别空壳公司的方法,其特征在于,所述步骤三中,经营活力评分模型基于机器学习算法对样本企业的数据进行训练得到。
4.根据权利要求3所述的基于知识图谱识别空壳公司的方法,其特征在于,所述样本企业为贷款申请企业,包含已成功获得贷款的企业和申请被拒绝的企业。
5.根据权利要求3所述的基于知识图谱识别空壳公司的方法,其特征在于,所述历史数据涵盖以下三个维度:
(1)企业资产类:注册资本、实缴资本、专利申请、不动产登记、机动车登记、及以上特征的时间序列特征;
(2)企业经营类:招投标、招聘、荣誉资质、工商年报的人数、收入与净利润、电力缴费、社保缴费、纳税、信贷、及以上特征的时间序列特征;
(3)政府公告类:行政许可、行政处罚、经营异常移入‑无法联系该企业、经营异常移入‑未公示年报、经营异常移出、简易注销、注销备案、欠税公告、及以上特征的时间序列特征;
所述行业数据为该行业中的企业在以上三个维度汇总所得。
6.根据权利要求1所述的基于知识图谱识别空壳公司的方法,其特征在于,所述步骤四中,当目标企业被划入某一个社区,该社区关联特征指数在拟合曲线上对应的企业活力评分即为该社区的空壳阈值,当企业活力评分小于阈值时,对目标企业进行空壳预警。
7.基于知识图谱识别空壳公司的系统,其特征在于,能够实现权利要求1‑6中任意一项所述的基于知识图谱识别空壳公司的方法,包括:社区关联模块、企业经营活力评价模块、空壳识别预警模块;所述社区关联模块用于根据知识图谱中的实体间关系划分社区并生成每个社区的关联特征指数,具体实现基于知识图谱识别空壳公司的方法中步骤一和步骤二的内容;所述企业经营活力评价模块用于将金融服务平台企业信贷申请结果作为样本,运用机器学习方法训练企业经营活力评分模型,生成企业经营活力分数,具体实现基于知识图谱识别空壳公司的方法中步骤三的内容;所述空壳识别预警模块用于利用空壳样本集,通过社区的关联特征指数及企业经营活力分数生成社区空壳阈值,对社区内未达阈值的企业进行空壳预警,具体实现基于知识图谱识别空壳公司的方法中步骤四的内容。
基于知识图谱识别空壳公司的方法及系统
技术领域
[0001]本发明属于计算机软件技术领域,涉及知识图谱技术,具体涉及基于知识图谱识别空壳公司的方法及系统。
背景技术
[0002]随着金融和网络的发展,各地以“一网通办”为目标,加快推进数据资源开放共享,通过建设省、市、区县惠企服务平台为企业提供审批、政策、信用、金融等“一站式互联网+ 服务”。在互联网惠企服务逐步推广的同时,一些不法分子通过注册空壳公司套取政策红利,造成资源错配。
[0003]空壳公司是指注册了营业执照,但是没有依法合规进行实际运营的公司。为支持创业创新,促进经济繁荣发展,各级推出了针对创业的优惠政策,但不法分子人充当法人代表注册空壳公司,违法套取创业补助、租金补贴、创业带动就业补贴等一系列财政补贴;此外,为解决小微企业融资难融资贵问题,各级推出风险补偿基金、贷款贴息等普惠金融政策,不法分子成立空壳公司骗取政策红利,影响了政策效果的同时,也导致金融机构面临较高的业务风险和合规风险。因此,利用自身的数据资源优势识别空壳企业是政务服务、金融服务等惠企平台提升企业服务质效的重要一环。但目前,尚无效果理想的可应用识别方法。
发明内容
[0004]为解决上述问题,本发明提供了一种基于知识图谱识别空壳公司的方法及系统,为识别空壳企业提供了切实可行的方案。
[0005]为达到上述目的,本发明的技术方案如下:
[0006]基于知识图谱识别空壳公司的方法,包括如下步骤:
[0007]步骤一,对企业间关系进行关联,具体包括:
[0008]生成系统中所有企业两两之间的一级关联特征,遍历所有一级关联特征不为0的组合,生成每组两个企业间的二级和三级关联特征,计算每组两个企业的关联特征之和;关联特征分为三类,一级关联特征包括人员、、登录设备,其中人员包括法人、最终受益人、股东、高管;包括工商注册地址、工商注册电话、登录注册电话;登录设备包括登录IP、MAC、IMEI;二级关联特征包括注册资本、实缴资本、注册时间、核准时间、企业类型、行业类型、经营范围、登记机关;三级关联特征包括一级特征和二级特征的变更时间和变更内容;
[0009]步骤二,通过图谱模块度与社区划分算法划分社区,得到最大化图谱模块度的社区划分,并计算每个社区的关联特征指数,具体包括:
[0010]两个顶点g和h之间边的权重为二者关联特征之和F(g,h),即
[0011]F(g,h)=F1(g,h)+F2(g,h)+F3(g,h)
[0012]将每个社区内所有连接顶点的边的权重之和,作为每个社区对应的内部关联特征和,将所有社区的上述内部关联特征和之和,作为社区网络关联特征和;将所有连接不同社
区的两个顶点所对应的边的权重之和,作为社区间关联特征和;将上述社区网络关联特征和与上述社区间关联特征和之差,作为该图谱的模块度;通过最大化图谱模块度的算法进行社区划分;完成社区划分后,计算每个社区的关联特征指数,用于标识每个社区企业关联关系的强度;每个社区的关联特征指数=该社区内部关联特征和/该社区顶点数量;[0013]步骤三,通过经营活力评分模型对目标企业的经营活力进行评分,具体包括:[0014]经营活力评分模型获取目标企业的历史数据及企业所属行业的行业数据;依据所述的历史数据和行业数据,获得所述目标企业和所述行业的各维度数据在五个预设时间段内对应的平均值,通过所述目标企业平均值/行业平均值确定五个预设时间段内目标企业各维度数据在行业内的等级指标;通过目标企业在行业内的等级在五个预设时间段内的变化,确定企业各维度数据的趋势指标;将目标企业的等级指标、趋势指标以及行业类型作为特征向量输入经营活力评分模型,输出所述目标企业的经营活力评分;
工商年报[0015]步骤四,从预设的数据库中获取空壳样本企业的经营活力评分以及其所在社区的关联特征指数,通过非线性Logistic回归拟合分类,确定样本中空壳企业活力评分与所在社区关联特征指数间的拟
合曲线,获取曲线下方的部分为空壳预警区域并进行空壳预警。[0016]进一步的,企业两两之间的各级关联特征计算方法如下:
[0017]两个工商注册企业g,h间一级特征关联特征通过下式计算:
[0018]
[0019]其中μ、ρ、σ为S、C、E下关联特征的预设权重;
[0020]如果两个工商注册企业间F1不为0,则计算两个实体的二级关联特征如下:
[0021]
[0022]其中τ为关联特征A的预设权重;
[0023]如果两个工商注册企业间的F1不为0,则计算两个实体的三级关联特征如下:
[0024]
[0025]其中和ω为关联特征U和V的预设权重。
[0026]进一步的,所述步骤三中,经营活力评分模型基于机器学习算法对样本企业的数据进行训练得到。
[0027]进一步的,所述样本企业为贷款申请企业,包含已成功获得贷款的企业和申请被拒绝的企业。
[0028]进一步的,所述历史数据涵盖以下三个维度:
[0029](1)企业资产类:注册资本、实缴资本、专利申请、不动产登记、机动车登记、及以上特征的时间序列特征;
[0030](2)企业经营类:招投标、招聘、荣誉资质、工商年报的人数、收入与净利润、电力缴费、社保缴费、纳税、信贷、及以上特征的时间序列特征;
[0031](3)政府公告类:行政许可、行政处罚、经营异常移入‑无法联系该企业、经营异常