际⼯作中,根据具体的业务场景可能会需要不同的数据分析⽅法。
例如:做⽤户的分类,可能会做⼀个“顾客聚类”模型或者“⽤户画像”与“⽤户分层”模型;对⽤户流失可能会做⼀个“⽤户流失预测模型”。
不管是哪个阶段,千万要记住,数据分析的核⼼是“解决问题”,不是“技术含量,技术复杂度,⽤什么⼯具”。
三、价值体现应⽤场景
准备从事数据分析师及刚从事数据分析师的同学⼀定要记住。最怕那种不懂装懂,上来说问你处理过多⼤数据量,你做过多个机器学习模型,你做过多少个数据产品!搞得没有做过这些内容,好像数据分析就没有任何价值似的。
我们举个例⼦来说明这两个阶段价值体现的具体使⽤场景。如某个企业,某周业务团队发现本周销售额没有达到之前设置的⽬标,假设是⽉累计完成率。我们假设有两种数据分析场景:
1)通过数据拆解定位是某个区域的销售远低于⽬标(常⽤假设检验)
数据分析师如果对业务很理解,可以会假设各种原因。例如:是否缺货、是否竞争对⼿搞活动、是否
取消与第三⽅的合作、是否定价过⾼、是否服务质量下降、是否促销效果不好、是否商品品质不好、是否客流下降、是否客单下降……. 会形成各种商业场景问题的原因假设,基于各种假设来利⽤进⾏验证分析。
如果对业务不熟悉,也可以通过对各种相关数据指标来进⾏对⽐,到可能影响的关键因素。例如:如果客流下降,是否某个价格带的商品太少?或者缺少引流品牌?是否缺少⾜够多的引流商品?⼀般是通过把当前的数据与这个区域的历史数据纵向对⽐分析;与其它区域的横向对⽐进⾏分析发现。
2)如果是所有区域都下降,⽽且下降幅度相差不会太⼤(常⽤假设检验)
可能就是公司整体商品策略、价格策略、促销策略,或者整体的社会环境导致⽤户的购买⼒下降,形成相关假设后,⼀样⽤数据去验证这个假设。假设销售的下降,是由于某类型顾客流失率在持续上升导致,那业务需要针对这类顾客进⾏针对性营销动作以做挽回。这个时候可能需要“机器学习”这种有“技术含量”来⽀持:
怎么做数据分析
①-1构建机器学习模型
通过构建机器学习的预测模型,为每位顾客的流失概率打上标签,根据流失概率来提前做预测,⼀个顾客如果已经流失了,挽回的可能性⼀般是很⼩的,或者要挽回的代价很⾼,对于⽤户购买相对⾼频商品的公司来说,⼀般都会对流失⽤户提前预测。
①-2构建智能营销数据产品
对每个⽤户由各种根据数据分析⽣成的标签,例如:价格带偏好、品牌偏好、购物时间偏好、购买⾦额偏好、⾼价值标签、活跃度标签等;也会有各种机器学习模型构建的标签,例如:通过不同场景的聚类,打上相应的标签,像⽣命周期标签;对⽤户的流失概率建模,打上流失概率标签等。
利⽤数据内容,业务可以设置⼀个规则,系统可以每天定时计算,也可以⽤户产⽣新数据后实时计算,从⽽更新⽤户的标签或者各种概率值。当⽤户满⾜某个值的时候,⾃动匹配哪种类型的营销⼿段,以哪些触达⽅式促销⽤户。
会员或者活动运营的同学可以及时看到各种报表统计数据来看营销效果:数据分析师可以不断的迭代机器学习模型,⽤新的数据不断持续优化模型,提升预测准确度。
业务同学可以将营销效果与数据分析结果相结合,不断的迭代与优化对应的营销⽅式。数据分析师,从职业发展来看,随时发展可以⾛技术路线:机器学习、数据产品⽅向;或商业分析⽅向!
②当然,也可以通过数据分析,寻到⼏个关键数据指标来划分,这时候针对是⼀个类型的顾客,⽽不是⼀个顾客,这样也可以提升营销的效率。
⼆种都是解决问题的⽅法与⼯具,都是能解决问题,在精细度上有⼀定区别,但前⾯⼀种“成本”也⽐较
⾼,我们数据分析师也⼀定要考虑最重要⼀个衡量指标:ROI。所以根据实际情况和资源来决定⽤什么⽅法。
注意:数据分析核⼼还是要懂业务、懂商业逻辑。⽤“假设检验”的思维去做数据分析,往往是⼀个优秀的数据分析师的最重要的“特长”。这个
特长可能是书上学不来了,得靠⾃⼰不断的实践、不断的问为什么形成。
四、理解“数据事实”(与数据⼝径)
把基础数据⼯作做好往往是深⼊理解商业逻辑的重要⽅式,基础做好了,才能把相对⾼⼤上的数据分析内容真正做好,看事实数据,是基础,是核⼼,也是关键。
我把数据临时需求、数据报表这两个部分的价值更多在于“看事实数据”。这两个内容提供好后,对业务价值是:看数据,通过数据直观、清晰了解业务实际情况,是否有异常?如果有异常,业务异常发⽣在哪?从⽽可以快速做出相应的商业动作。
为什么叫“事实数据”还包括两个含义:
⼀个是数据是正确统计。
是指在数据统计过程中,“数据代码的开发与实现”是正确的,没有统计错。例如:销售⾦额,不会统计成销售数量,不会因为数据表、数据字段⽤错、写SQL代码逻辑写错⽽导致统计结果出错;这种更多是避免“技术”上的错误导致数据不准确。
⼀个是指数据指标定义要符合分析场景,没有被“⼈为修饰”过。
数据的加⼯是根据特定场景,按实际需要进⾏定义的。数据反应真实的业务状况、业务表现。
举个例⼦来说明⼀下:转化率=订单量/UV;还是会员数/UV;
1)应该是⽤订单量还是会员数?应该⽤什么状态的数据?创建产⽣的订单/会员?⽀付产⽣的订单/会员?还是⽀付成功的订单/会员?
2)UV是指访客,访客是按cookie统计?还是按⽤户的设备号统计?数据指标定义实现没有所谓的“百分之百”准确,在特定场景下根据数据要反馈或者分析的特定问题,我们应该使⽤更真实的数据指标。就我们上⾯的转化率,如果汇报的同学想表达“特定”观点,可以针对性定义某相的数据指标。如果不是根据相对“客观”真实反馈数据的话,可能呈现的数据指标会出现截然不同的⼆个结论。
有时候会听到说,“数据会撒谎”,数据本不会撒谎,就看⽤的或者加⼯数据的⼈怎么处理,数据是⽤来反映问题,帮助解决问题,不应该让数据成为掩饰问题的⼿段。
经验⼩分享:
⼀、应该让业务看到真实数据,保证数据⼀致,各个出⼝看到的数据指标不打架,⾄少应该是关键数据指标不打架。这种关键指标应该是定义好,不允许更改的,如果要更改也必须是管理层来确定。
⼆、在实际很多企业中,能做好数据临时需求、数据报表构建好,就已经能解决企业很⼤的问题,对任何业务团队的来说,可以准确、及时、完整的看到数据,就能通过数据很好的看清楚业务状况、业务结构。
“通过数据,可以很直观反馈业务是否健康,是否有异常,利⽤数据可以快速的监控、定位业务的健康状况。”
“帮助业务团队做决定,最重要的是要搞清楚问题是什么,什么是最为重要的。如果问题都还没有搞清楚、没有定义清楚,凭感觉就简单的做出各种决策。这是“拍脑袋⾏为”,在⽬前竞争环境下,已经不再适应!”
当前⾯这些基础做好后,才有可能去谈如何做数据分析,因为做数据分析最⼤的前提是要清楚定义问题之后才能分析。