⽤户画像-ID_MAPPINGpyspark实战
中老年品牌
⼀项⽬背景
蔡卓妍微博公司⼤数据平台从⽆到有,过去⼀年⼤部分在做etl和单业务系统的数据分析,现在由于各个业务系统数据都已经统⼀到了⼤数据平台,迫切需要将各个业务系统的⽤户进⾏打通,然后对⽤户进⾏⽤户画像等分析。ID_MAPPING 也算得上是第⼀个正式的机器学习⼯程实践,从业务整理、数据源调研、数据整理和特征⼯程到建模、模型评估、系统部署这⼀完整流程都由⾃⼰独⽴设计实现。
⼆算法思路
秦牛正威家庭背景是⼀家餐饮⾏业的数据,业务系统主要有第三⽅平台(o2o,包括在美团上点餐及在到店堂⾷等),⼩程序(有多个⼩程序),⽀付宝⼩程序,⾃有app。各个业务系统之家⽤户没有打通,各个业务系统都有各⾃的id对⽤户进⾏标识,如果⽤户是多个系统的会员并且注册的⼿机号相同,在会员表中会有⼀条会员信息可以通过⼀个第三⽅账户表和各个业务系统的⽤户表对应。
如 a⽤户通过⼩程序wx_1 购买了商品,有⼀个wx_id a_wx_1;同时⼜在⼩程序wx_2上购买了商品,有
另⼀个wx_id a_wx_2 (的安全机制让在不同⼩程序上的⽤户wx_id不同,所以a_wx_1 和 a_wx_
2 是不
⼀样的,但是同⼀个⽤户会有⼀个统⼀的wx_uinon_id,通过这个id可以把不同渠道的统⼀⽤户识别出
来);同理,a⽤户在⽀付宝⼩程序购买了商品产⽣Alipay_id  a_alipay,在o2o购买产出o2_id a_o2o;在⾃有app
购买产⽣的数据和o2o购买产⽣的数据是⼀样的,就是这两种交易⽅式共⽤的是⼀套系统。所有这些业务系统
的⽤户都会在⽤户第三⽅账户表产⽣⼀条记录(如果之前存在该第三⽅⽤户就不变);如果该⽤户注册为会
员,就会在会员表产⽣⼀条记录,会员表通过第三⽅账户表关联到各个业务系统。业务系统id流向如下图(业务id流向)
算法实现过程详解
字段介绍:
tel:⽤户电话宝宝免费起名大全
wx_common_id:⽤户在上的唯⼀id
wx_open_id:⽤户在各个⼩程序上的id,同⼀个⽤户多个wx_open_id对应⼀个wx_common_id alipay_id:⽤户在⽀付宝⼩程序上的id
member_id:⽤户在⾃有app上的id
中国最o2o_id:⽤户在第三⽅平台上的id
create_time:⽤户创建账号或者第⼀次下单的时间
exelero