社会保障一卡通数据采集整理技巧
作者:康君
来源:《电子技术与软件工程》2016年第19
       
        2012年吉林省启动社会保障一卡通建设工作,为使这项便民、利民和惠民的工程能够尽快地实施,省人社厅决定采取数据采集和系统建设齐头并进的方案来开展工作。由此社会保障卡持有人数据采集工作提到了重要日程,卡是社会保障一卡通的载体,采集持卡人的个人信息是社会保障一卡通建设最基础的工作,由于全民纳入社会保障的惠民政策,采集工作量非常巨大,又由于新的社会保障卡加载了金融功能,涉及到持卡人需要选择相应的服务银行,因此,必须由持卡人填表签字确认。本文对社会保障一卡通数据的采集和整理技巧做出了相应的研究。
        【关键词】一卡通 持卡人 数据采集
        1 前言
社保卡余额查询        为了提高持卡人个人信息数据采集的效率,我们采取了利用已有个人基本信息数据先打印好《社会保障卡申领登记确认表》,然后再由持卡人确认签字的方案,这样可以省去填表的过程,极大地提高采集效率。由于采取了这样的方案,那么,首先要做的工作就是利用相关部门的个人基本信息数据,制作规范化的excel数据表。
        从相关部门获得的个人基本信息数据,并不完全符合要求,需要对数据进行整理。应注意的问题包括列表结构顺序、字段属性等。
        按照个人基本信息数据采集规范,必须对持卡人采集包括居民身份证号、身份证有效截止日期、姓名、性别、民族、出生年月、单位名称、通讯地址、和相片等信息。
        从相关部门获得的数据,其个人记录信息一般都是正确的,但也有少数记录信息存在错误,在姓名中存在同音不同字,如:姓名记录为张山,而实际为张珊;性别记录为,而实际为等。为了保证数据准确导入数据库,就需要进行认真、仔细和准确的采集数据。为此,我们采用从不同部门获得的个人基本信息数据进行比对、筛选,主要采信居民身份证信息,性别出生年月按照居民身份证号规范进行提取生成,相片也要按照“358×441”像素的规格进行处理。
        针对从相关部门获得的个人基本信息数据要对各个字段进行字段属性转换,我们的经验是除序号字段外,其他字段属性一律设置成文本属性,这样做的好处是在以后的数据处理中不会出现意想不到的问题。
        从相关部门获得的个人基本信息数据通常与我们的要求并不相符,为了使数据符合《社会保障卡相关技术规范》,我们需要针对数据进行整理,这个数据整理工作不仅仅是为了打印《社会保障卡申领登记确认表》,也要为日后批量申请社会保障卡做好准备。
        《社会保障卡相关技术规范》中规定社会保障卡数据格式为:
        序号,居民身份证号,姓名,性别,民族,出生年月,单位名称,,服务银行……
        2 数据整理步骤
        下面将具体数据整理步骤进行详细说明:
        2.1 准备数据
        整理数据比较方便的应用软件是MS_OFFICE组件中的EXCEL,相关部门获得的数据与我们要求的数据字段名称以及数据结构不尽相同,需要将相关部门的数据进行整理,整理过程中一定要按照《社会保障卡相关技术规范》的要求进行,也为将来数据上传卡管系统做好准备。
        2.2 数据整理过程中需要注意的问题
        因为从相关单位获得的数据与我们所要求的标准数据存在差异,如有些数据存在空格,有些数据存在字母大小写不一致,有些数据存在重复数据,有些数据需要重新命名等,下面就常见的3个问题进行说明。
        2.2.1 空格处理
        数据中存在空格共有3种情况,一是字段的字符串前面有空格,二是字段的字符串后面有空格,三是字段的字符串中间部分有空格。在处理数据之前应该在相邻处复制一列,防止处理数据时出现错误无法挽回,造成不必要的损失。复制的方法是,先在相邻格间插入一列,然后,选中目标列,再按住CTRL健,同时将鼠标放置到选中列的边框处,此时鼠标出
现一个“+”号,按住鼠标左键向先前插入的空列拖动,拖动到空列后,空列被填充为要复制列的内容,松开鼠标左键,复制完成。
        无论空格位置处在哪一种情况下,一般用函数substitutetextold_textnew_text)将字符串中的部分字符串以新字符串替换。
        例如:C2=substituteB2" """),见图1
        空格去除后,见图2
        然后把C列复制,假如复制到B列,在B列选择性粘帖为数值,这样可以解除函数关联,再将列标名(字段名)由“TEST”重新更名为姓名
        2.2.2 处理身份证中末位的字母
        有的是大写“X”,有的是小写“x”,由于规定身份证号中字母要大写,因此,对于小写的字母要改成大写,一般用函数uppertext)将小写字符改写成大写字母。
        2.2.3 对于性别的筛选整理
        最好通过身份证号来获得,对于18位的第二代身份证号码格式,从左侧数第17位是性别标识位,奇数是,偶数是。我们可以通过MID函数提取出该位,然后再用Excel的另一个函数MOD进行求余数,通过将该位与2进行求余,为0就是女性,为1就是男性,以18位第二代身份证为例:
        =IfmodmidA2171),2=1
        需要说明的是在使用函数时要注意单元格的属性,新的目标单元格属性一般要设置成常规属性,否则,函数失败,不能进行改写操作。
        3 结语
        关于数据采集和整理技巧就说到这里,实践中还会遇到很多问题,希望大家摸索和挖掘更好的方法,以便解决相应的问题。
        作者单位
        四平市人力资源和社会保障信息中心 吉林省四平市 136000