简历解析步骤(第⼆步)技术与实现(3)识⽂字,做分类:性别
简历解析步骤(第⼆步)技术与实现(3)识⽂字,做分类:性别
继上篇⽂章理论:
简历解析,常见接收到的简历是图⽚或⽂档的⽅式,我们需要先将简历中的⽂字提取出来,然后再对⽂字进⾏算法分析以及AI训练,从⽽实现解析简历与提⾼解析度的效果。
先介绍我们整个解析过程和训练过程需要⽤到的技术:
1. ⽂字识别:OCR服务(百度 AI 开放平台:通⽤⽂字识别)
2. 算法(伪代码:不限语⾔)
3. AI 机器学习 (ML.NET 或者 Python ⼀些算法库)
步骤: 第⼀步:通过⽂字识别的⽅式,提取出⾥⾯所有有价值的内容(可以转换的所有信息:因为本次讲解都是中⽂,所以接下来都以解析中⽂简历来作为例⼦)第⼆步:通过算法进⾏识别,到符合要求的信息如:姓名、性别、年龄、学历、⼯作经历等。第三步:将识别出来的信息进⾏本地存储,然后通
过⼈⼯去纠正错误,将该版本作为样板,交由机器学习算法进⾏学习运算,计算出模型。第四步:将得出来的模型再识别简历达到⼀定的量,再纠错,再交由机器学习算法进⾏学习运算,反复学习,直⾄通过率接近 100%。
步骤实现:
第⼀步:识⽂字,取信息
细节可以参考上⼀篇⽂章
我们写⼀个简历
获得结果:
第⼆步:识⽂字,做分类
工商银行小额贷款>缘之空哪一集做了我们通过百度云读取出来的⽂字信息,是⼀个区域⼀个区域的字符串。这个时候,我们要将这些字符串做⼀些分类:基本信息(38项)
#1. 姓名 2. 姓⽒ 3. 性别 4. 年龄 5. ⾝⾼ 6. 体重 7. 婚姻状态 8. 出⽣⽇期 9. 户⼝地址 10. 籍贯地址 11. ⾝份证号 12. 民族 13. 国籍14. 政治⾯貌 15. 语⾔能⼒ 16. 英语⽔平 17. 计算机⽔平 18. 博客/主页地址 19. ⼯作年限 20. 参加⼯作时间 21. 当前职位(如果没离职:当前公司的职位,如果离职:上⼀家公司的职位) 22. 当前职能类型 23. 当前单位 24. 所处⾏业 25. 在职状态 26. 当前薪资 27. ⼯作地点 28. ⼯作性质(全职、兼职、实习) 29. 有否海外留学经历 30. 有否海外⼯作经历 31. 毕业时间 32. 毕业学校 33. 毕业学校类型34. 所学专业 35. 学历 36. 是否统招
性别分类:(核⼼代码如下)配合识别出来的⽂字使⽤
/// <summary>
///    验证性别
/// </summary>
待到重阳日的下一句/// <param name="words">内容</param>
/// <returns></returns>
static List<string>VerificationGender(string words)
{
List<string> resultInfo =new List<string>();;
//情况:性别:X,这种半格式⽂本情况下,基本可以百分百确定“:”后⾯是性别if(words.Contains("性别:"))
resultInfo.Add(words);
if(words.Contains("性别:"))
resultInfo.Add(words);
if(words.ToLower().Contains("gender:"))
resultInfo.Add(words);
韩丹彤//情况:XXX,不是半格式⽂本的情况,我们要通过单字符来确定
if(words.ToLower().Contains("male"))
resultInfo.Add(words);
if(words.Contains("男"))
resultInfo.Add(words);
if(words.Contains("⼥"))
resultInfo.Add(words);
return resultInfo;
}
林志玲露点
捐钱
将识别出来的信息放到上⾯的函数分类后,得到如下结果
要源码的,评论区留下邮箱,或者加qq:546496965