数据分析⾯试题——业务思维逻辑
1. 不⽤任何公开参考资料,估算今年新⽣⼉出⽣数量。
采⽤两层模型(⼈画像x⼈转化):新⽣⼉出⽣数=Σ各年龄层育龄⼥性数量*各年龄层⽣育⽐率
(⼀般⾯试中采⽤这种⽅法,即费⽶估计问题,可以参考《这也能想到?——巧妙解答⽆厘头问题》)
从数字到数字:如果有前⼏年新⽣⼉出⽣数量数据,建⽴时间序列模型(需要考虑到⼆胎放开的突变事件)进⾏预测
先兆指标,如婴⼉类⽤品的新增活跃⽤户数量X表⽰新⽣⼉家庭⽤户。Xn/新⽣⼉n为该年新⽣⼉家庭⽤户的转化率,如X2007/新⽣⼉2007为2007年新⽣⼉家庭⽤户的转化率。该转化率会随平台发展⽽发展,可以根据往年数量推出今年的⼤致转化率,并根据今年新增新⽣⼉家庭⽤户数量推出今年估计的新⽣⼉数量。
2. 如果次⽇⽤户留存率下降了 5%该怎么分析?
⾸先采⽤“两层模型”分析:对⽤户进⾏细分,包括新⽼、渠道、活动、画像等多个维度,然后分别计算每个维度下不同⽤户的次⽇留存率。通过这种⽅法定位到导致留存率下降的⽤户体是谁。
对于⽬标体次⽇留存下降问题,具体情况具体分析。具体分析可以采⽤“内部-外部”因素考虑。
a. 内部因素分为获客(渠道质量低、活动获取⾮⽬标⽤户)、满⾜需求(新功能改动引发某类⽤户不满)、提活⼿段(签到等提活⼿段
没达成⽬标、产品⾃然使⽤周期低导致上次获得的⼤量⽤户短期内不需要再使⽤等);
b. 外部因素采⽤PEST分析(宏观经济环境分析),政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对⼿的活动)、社会
(舆论压⼒、⽤户⽣活⽅式变化、消费⼼理变化、价值观变化等偏好变化)、技术(创新解决⽅案的出现、分销渠道变化等)。
3. 卖⽟⽶如何提⾼收益?价格提⾼多少才能获取最⼤收益?
收益 = 单价*销售量,那么我们的策略是提⾼单位溢价或者提⾼销售规模。
提⾼单位溢价的⽅法:
(1)品牌打造获得长期溢价,但缺陷是需要⼤量前期营销投⼊;
(2)加⼯商品占据价值链更多环节,如熟⽟⽶、⽟⽶汁、⽟⽶蛋⽩粉;重定位商品,如礼品化等;
(3)价格歧视,根据价格敏感度对不同⽤户采⽤不同定价。
销售量=流量x转化率,上述提⾼单位溢价的⽅法可能对流量产⽣影响,也可能对转化率产⽣影响。
收益 = 单价x流量x转化率,短期内能规模化采⽤的应该是进⾏价格歧视,如不同时间、不同商圈的⽟⽶价格不同,采取⾼定价,然后对价格敏感的⽤户提供优惠券等。
4. 类⽐到头条的收益,头条放多少⼴告可以获得最⼤收益,不需要真的计算,只要有个思路就⾏。
收益 = 出价x流量x点击率x有效转化率,放⼴告的数量会提⾼流量,但会降低匹配程度,因此降低点击率。最⼤收益是到这个乘积的最⼤值,是⼀个有约束条件的最优化问题。
同时参考价格歧视⽅案,可以对不同的⽤户投放不同数量的⼴告。
5.APP激活量的来源渠道很多,怎样对来源渠道变化⼤的进⾏预警?
如果渠道使⽤时间较长,认为渠道的app激活量满⾜⼀个分布,⽐较可能是正态分布。求平均值和标准差,对于今⽇数值与均值差⼤于3/2/1个标准差的渠道进⾏预警。
对于短期的新渠道,直接与均值进⾏对⽐。
6.⽤户刚进来APP的时候会选择属性,怎样在保证有完整⽤户信息的同时让⽤户流失减少?
采⽤技术接受模型(TAM)来分析,影响⽤户接受选择属性这件事的主要因素有:
技术接受模型提出了两个主要的决定因素:
①感知的有⽤性(perceived usefulness),反映⼀个⼈认为使⽤⼀个具体的系统对他⼯作业绩提⾼的程度;
②感知的易⽤性(perceived ease of use),反映⼀个⼈认为容易使⽤⼀个具体的系统的程度。
(1)感知有⽤性:
a. ⽂案告知⽤户选择属性能给⽤户带来的好处
(2)感知易⽤性:
a. 关联⽤户第三⽅账号(如微博),可以冷启动阶段匹配⽤户更有可能选择的属性,推荐⽤户选择。
b. 交互性做好。
(3)使⽤者态度:⽤户对填写信息的态度
a. 这⾥需要允许⽤户跳过,后续再提醒⽤户填写
b. 告知⽤户填写的信息会受到很好的保护
(4)⾏为意图:⽤户使⽤APP的⽬的性,难以控制
(5)外部变量:如操作时间、操作环境等,这⾥难以控制
7.如何识别作弊⽤户(爬⾍程序, 或者渠道伪造的假⽤户)
分类问题可以⽤机器学习的⽅法去解决,下⾯是我⽬前想到的特征:
(1)渠道特征:渠道、渠道次⽇留存率、渠道流量以及各种⽐率特征
(2)环境特征:设备(⼀般伪⽤户的⼯作坊以低端机为主)、系统(刷量⼯作坊⼀般系统更新较慢)、wifi使⽤情况、使⽤时间、来源地区、ip是否进过⿊名单
(3)⽤户⾏为特征:访问时长、访问页⾯、使⽤间隔、次⽇留存、活跃时间、页⾯跳转⾏为(假⽤户的⾏为要么过于⼀致,要么过于随机)、页⾯使⽤⾏为(正常⽤户对图⽚的点击也是有分布的,假⽤
户的⾏为容易过于随机)
(4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、⾏为异常(突然⼤量点击⼴告、点赞)、数据包不完整等
8.怎么做恶意刷单检测?
分类问题⽤机器学习⽅法建模解决,我想到的特征有:
(1)商家特征:商家历史销量、信⽤、产品类别、发货快递公司等
(2)⽤户⾏为特征:⽤户信⽤、下单量、转化率、下单路径、浏览店铺⾏为、⽀付账号
(3)环境特征(主要是避免机器刷单):地区、ip、⼿机型号等
(4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
(5)评论⽂本检测:刷单的评论⽂本可能套路较为⼀致,计算与已标注评论⽂本的相似度作为特征
(6)图⽚相似度检测:同理,刷单可能重复利⽤图⽚进⾏评论
9.⼀个⽹站销售额变低,你从哪⼏个⽅⾯去考量?
⾸先要定位到现象真正发⽣的位置,到底是谁的销售额变低了?这⾥划分的维度有:
a. ⽤户(画像、来源地区、新⽼、渠道等)
b. 产品或栏⽬
c. 访问时段
定位到发⽣未知后,进⾏问题拆解,关注⽬标体中哪个指标下降导致⽹站销售额下降:
a. 销售额=⼊站流量x下单率x客单价
b. ⼊站流量 = Σ各来源流量x转化率
c. 下单率 = 页⾯访问量x转化率
d. 客单价 = 商品数量x商品价格
确定问题源头后,对问题原因进⾏分析,如采⽤内外部框架:
a. 内部:⽹站改版、产品更新、⼴告投放
b. 外部:⽤户偏好变化、媒体新闻、经济坏境、竞品⾏为等.
10.⽤户流失的分析,新⽤户流失和⽼⽤户流失有什么不同?
(1)⽤户流失分析:
两层模型:细分⽤户、产品、渠道,看到底是哪⾥⽤户流失了。注意由于是⽤户流失问题,所以这⾥细分⽤户时可以细分⽤户处在⽣命周期的哪个阶段。
指标拆解:⽤户流失数量 = 该体⽤户数量*流失率。拆解,看是因为到了这个阶段的⽤户数量多了(⽐如说⼤部分⽤户到了衰退期),还是这个⽤户体的流失率⽐较⾼
内外部分析:
a. 内部:新⼿上⼿难度⼤、收费不合理、产品服务出现重⼤问题、活动质量低、缺少留存⼿段、⽤户参与度低等
b. 外部:市场、竞争对⼿、社会环境、节假⽇等
(2)新⽤户流失和⽼⽤户流失有什么不同:
新⽤户流失:原因可能有⾮⽬标⽤户(刚性流失)、产品不满⾜需求(⾃然流失)、产品难以上⼿(受挫流失)和竞争产品影响(市场流失)。
新⽤户要考虑如何在较少的数据⽀撑下做流失⽤户识别,提前防⽌⽤户流失,并如何对有效的新⽤户进⾏挽回。
⽼⽤户流失:原因可能有到达⽤户⽣命周期衰退期(⾃然流失)、过度拉升arpu导致低端⽤户驱逐(刚性流失)、社交蒸发难以满⾜前期⽤户需求(受挫流失)和竞争产品影响(市场流失)。
⽼⽤户有较多的数据,更容易进⾏流失⽤户识别,做好防⽌⽤户流失更重要。当⽤户流失后,要考虑⽤户⽣命周期剩余价值,是否需要进⾏挽回。
11.GMV(成交总额)升了20%怎么分析?
(我噼⾥啪啦分析了⼀通⾯试官笑嘻嘻地告诉我是数据错了,因为⾯试较紧张没有意识到这个问题,现在想想真是个⼤坑啊)
参考该⾯试者经验,应该先估算⼀下数字有没有问题
同样的套路:
(1)两层模型:进⾏⽤户体、产品、渠道细分,发现到底是谁的GMV提升了
(2)指标拆解:将GMV拆解成乘法模型,如GMV=⼴告投放数量⼴告点击率产品浏览量放⼊购物车率交易成功率*客单价,检查哪⼀步有显著变化导致了GMV上升
(3)内外部分析:
a. 内部:⽹站、产品、⼴告投放、活动等
b. 外部:套PEST等框架也⾏,或者直接分析也⾏,注意MEMC即可
这⼀题要注意,GMV流⽔包括取消的订单⾦额和退货/拒收的订单⾦额,还有⼀种原因是商家刷单然后退货,虽然GMV上去了,但是实际成交量并没有那么多。
12. 如果现在有个情景,我们有⼀款游戏收⼊下降了,你怎么分析。
两层模型:细分⽤户、渠道、产品,看到底是哪⾥的收⼊下降了
指标拆解:收⼊ = 玩家数量 * 活跃占⽐ * 付费转化率 * 付费次数 * 客单价
进⼀步细分,如玩家数量 = ⽼玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的
数据进⾏对⽐,发现哪些环节导致收⼊下降
原因分析:
a. 内部:产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等
b. 外部:⽤户偏好变化、市场环境变化、舆论环境变化、竞争对⼿⾏为、外部渠道变化等
如何提⾼:基于乘法模型,可以采⽤上限分析,从前往后依次将指标提升到投⼊⾜够精⼒(假设优先分配⼈⼒、经费与渠道)后的上限,然后分析“收⼊”指标的数值提升。到数值提升最快的那个阶段,就是我们提⾼收⼊的关键任务
13. 现在有⼀个游戏测试的环节,游戏测试结束后需要根据数据提交⼀份PPT,这个PPT你会如何安排?包括什么内容?
这⾥可以套AARRR模型:
获取⽤户(Acquisition)
提⾼活跃度(Activation)
提⾼留存率(Retention)
获取收⼊(Revenue)
⾃传播(Refer)
获取:我们的⽤户是谁?⽤户规模多⼤?
a. ⽤户分层
激活:游戏是否吸引玩家?哪个渠道获取的⽤户有质量(如次⽇留存⾼、⾸⽇停留时间长等)?
留存:⽤户能否持续留存?哪些⽤户可以留存?
转化:⽤户的游戏⾏为如何?能否进⾏转化?能否持续转化?
⾃传播:⽤户是否会向他⼈推荐该游戏?哪种⽅式能有效⿎励⽤户推荐该游戏?传播k因⼦是否⼤于1?
14. ⽐如你对楼市不熟悉,现在要你去做⼀个像58同城之类的,卖房的中介,电商,你会如何进⾏分析。
(1)商业模式分析:中介做的是双边市场⽣意,通过解决市场信息不对称下的信息流动问题,降低买⽅和卖⽅的交易成本,从⽽创造盈利空间
(2)需求分析:
a. 买⽅需求分析:低价买好房,对时间的需求有快的和慢的
b. 卖⽅需求分析:房⼦卖⾼价,对时间的需求有快的和慢的
(3)进⼊条件分析(套SWOT分析法(态势分析法)也⾏):怎么做数据分析
a. ⾃⾝条件
b. 竞争对⼿
c. 市场增长规模
(4)进⼊策略分析:
a. ⾃⾝⽬标
b. ⽬标拆解
c. 分析⽬标达成的可能性,预估将来⼀段时间,好/正常/坏条件下的⽬标达成情况
d. 得出结论:是否进⼊该市场
15. 某业务部门在上周结束了为期⼀周的⼤促,作为业务对⼝分析师,需要你对活动进⾏⼀次评估,你会从哪⼏⽅⾯进⾏分析?
(1) 确定⼤促的⽬的:拉新?促活?清库存?
(2) 根据⽬的确定核⼼指标。
(3) 效果评估:
a. ⾃⾝⽐较:活动前与活动中⽐较
b. 与预定⽬标⽐
c. 与同期其它活动⽐
d. 与往期同类活动⽐
(4)持续监控:
a. 检查活动后情况,避免透⽀消费情况发⽣
b. 如果是拉新等活动,根据后续数据检验这批新客的质量