专业的数据分析报告应该这么写↘
来源:趣店技术团队/作者:吴迪「趣店数据分析师」
能不能写⼀份优秀的分析报告,是衡量分析师是否⽜X的重要标准。
除了不同场景下特定的分析逻辑,怎么把分析报告写的更好,其实是有成体系⽅法论的。
今天给⼤家分享⼀篇关于数据分析报告规范的⼲货,常看常新,值得收藏和细品。
01
结构规范及写作
报告常⽤结构:
1. 架构清晰、主次分明
数据分析报告要有⼀个清晰的架构,层次分明能降低阅读成本,有助于信息的传达。虽然不同类型的分析报告有其适⽤的呈现⽅式,但总的来说作为议论⽂的⼀种,⼤部分的分析报告还是适⽤总-分-(总) 的结构。
推荐学习⾦字塔原理,中⼼思想明确,结论先⾏,以上统下,归类分组,逻辑递进。⾏⽂结构先重要后次要,先全局后细节,先结论后原因,先结果后过程。对于不太重要的内容点到即⽌,舍弃细枝末节与主题不相关的东西。
2. 核⼼结论先⾏、有逻辑有依据
结论求精不求多。⼤部分情况下,数据分析是为了发现问题,⼀份分析报告如果能有⼀个最重要的结论就已经达到⽬的。精简的结论能降低阅读者的阅读门槛,相反太繁琐、有问题的结论100个=0。报告要围绕分析的背景和⽬的以及要解决的问题,给出明确的答案和清晰的结论;相反,结论或主题太多会让⼈不知所云,不知道要表达什么。
分析结论⼀定要基于紧密严谨的数据分析推导过程,尽量不要有猜测性的结论,太主观的结论就会失去说服⼒,⼀个连⾃⼰都没有把握的结论千万不要在报告⾥误导别⼈。
但实际中,部分合理的猜测不到直观可⾏的验证,在给出猜测性结论的时候,⼀定是基于合理的、有部分验证依据前提下,谨慎地给出结论,并且说明是猜测。如果在条件允许的前提下可以通过调研/回访的⽅式进⾏论证。
不回避“不良结论” 。在数据准确、推导合理的基础上,发现产品或业务问题并直击痛点,这其实是数据分析的⼀⼤价值所在。
3. 结合实际业务、建议合理
基于分析结论,要有针对性的建议或者提出详细解决⽅案,那么如何写建议呢?
⾸先,要搞清给谁提建议。不同的⽬标对象所处的位置不同,看问题的⾓度就不⼀样,⽐如⾼层更关注⽅向,分析报告需要提供业务的深度洞察和指出潜在机会点,中层及员⼯关注具体策略,基于分析结论能通过哪些具体措施去改善现状。
其次,要结合业务实际情况提建议。虽然建议是以数据分析为基础提出的,但仅从数据的⾓度去考虑就容易受到局限、甚⾄⾛⼊脱离业务忽略⾏业环境的误区,造成建议提了不如不提的结果。因此提出建议,⼀定要基于对业务的深刻了解和对实际情况的充分考虑。
再进⼀步,如果可以给出这个建议实施后的收益,下单转化提升多少、交易提升多少、能节省多少成本等,把价值点直接传递给阅读对象。
接传递给阅读对象。
上⾯讲了报告的写作原则,举个例⼦,参考艾瑞⽹,《留存与未来-疫情背后的互联⽹发展趋势报告》:
Tips:尝试站在读者的⾓度去写分析报告,内容通俗易懂,⽤语规范谨慎。如果汇报对象不是该领域的专家,就要避免使⽤太多晦涩难懂的词句,同时报告中使⽤的名词术语⼀定要规范,要与既定的标准(如公司指标规范)以及业内公认的术语⼀致。
02
数据使⽤及图表
数据分析往往是80%的数据处理,20%的分析。⼤部分时候,收集和处理数据确实会占据很多时间,最后才在正确数据的基础上做分析,既然⼀切都是为了到正确的结论,那么保证数据准确就显得格外重要,否则⼀切努⼒都是误导别⼈。
1. 分析需要基于可靠的数据源
⽤于鉴别信息/数据的可靠性,主要有四种⽅法:同类对⽐、狭义/⼴义⽐对、相关对⽐和演绎归谬。
•同类对⽐:与⼝径相同或相近,但来源不同的信息进⾏对⽐。
•⽰例:最常见就是把跑出来的数据和报表数据核对校验。
•狭义/⼴义对⽐:通过与更⼴义(被包含)或更狭义(包含)的信息进⾏对⽐。
•⽰例:3C品类销售额与商城总销售额⽐较,3C的销售额更⾼显然是错误的,因为商城总销售额包含3C销售额;某些页⾯/频道的UV与APP总UV⽐较也类似。
•相关对⽐:通过与具有相关性、关联性的信息进⾏对⽐。
•⽰例:某平台的Dn留存率,对于同⼀个基准⽇期来说,D60留存率⼀定低于D30留存率的,如果出现⼤于的情况,那就是错误数据了。
•演绎归谬:通过对现有证据的深⼊演绎,推导出结果,判断结果是否合理。
•⽰例:⽐如某平台的销售客单价2000左右,总销售额1亿左右;计算得出当⽇交易⽤户数10万,通过乘以客单价,得到当天销售额2亿,显然与业务体量不符,为错误的数据。怎么做数据分析
Tips:以上都是常⽤的⽅法论,最核⼼是⾜够了解业务,对关键指标数据情况了然于⼼,那么对数据准确性的判断⽔到渠成。对此,建议是每⽇观测核⼼业务的数据情况,并分析波动原因,培养业务理解⼒和数据敏感度。
2. 尽量图表化,提⾼可读性
⽤图表代替⼤量堆砌的数字,有助于阅读者更形象直观地看清楚问题和结论,当然,图表也不要太多,过多的图表⼀样会让⼈⽆所适从。
让图表五脏俱全,⼀张图必须包含完整的元素,才能让阅读者⼀⽬了然。标题、图例、单位、脚注、资料来源这些图表元素就好⽐图表的五脏六腑。
要注意的条条框框。
•⾸先,避免⽣出⽆意义的图表。决定做不做图的唯⼀标准就是能否帮助你有效地表达信息。
•第⼆,不要把图表撑破。最好⼀张图表反映⼀个观点,突出重点,让读者迅速捕捉到核⼼思想。
•第三,只选对的,不选复杂的。
•第四,⼀句话标题。
常见的图表类型选择:
图表使⽤Tips:
•折线图:选⽤的线型要相对粗些,线条⼀般不超过5条,不使⽤倾斜的标签,纵坐标轴⼀般刻度从0开始。预测值的线条线型改为虚线。
线条线型改为虚线。
•柱形图:同⼀数据序列使⽤相同的颜⾊。不使⽤倾斜的标签,纵坐标轴⼀般刻度从0开始。⼀般来说,柱形图最好添加数据标签,如果添加了数据标签,可以删除纵坐标刻度线和⽹格线。
•条形图:同⼀数据序列使⽤相同的颜⾊。不使⽤倾斜的标签,最好添加数据标签,尽量让数据由⼤到⼩排列,⽅便阅读。
•饼图:饼图使⽤场景相对少,如需使⽤,注意以下事项:把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置。数据项不要太多,保持在6项以内,不使⽤爆炸式的饼图分离。不过可以将某⼀⽚的扇区分离出来,前提是你希望强调这⽚扇区。饼图不使⽤图例。不使⽤3D效果。当扇区使⽤颜⾊填充时,推荐使⽤⽩⾊的边框线,具有较好的切割感。
•警惕图表说谎
•虚张声势的增长:⼈们喜欢研究⼀条线的发展趋势,例如股市、房价、销售额的增长趋势,有时候为了吸引读者故意夸⼤变化趋势,如图1通过截断数轴夸⼤增长速度,从正常数轴的图2看到增长是缓慢的。
•3D效果的伪装:3D图形容易造成视觉偏差,如图1有3D效果,看上去 A->B->C->D->E依次递增,实际是D>E,要格外⼩⼼图表的伪装。
03
常见数据分析误区
“⽤数据说话”,已经成为⼀种流⾏语。
在很多⼈的⼼⾥,数据就代表着科学,科学就意味着真相。“数据不会骗⼈”,也成了说服别⼈时常⽤的⼝头禅,事实果真如此吗?让我们来谈谈那些常见的误区。
1. 控制变量谬误
在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果。或者在进⾏数据对⽐时,两个指标没有可⽐性。举个例⼦,为测试不同营销时间点对下的转化的影响,但A实验使⽤短信营销、B实验使⽤电话营销,未控制变量(营销⽅式),导致实验⽆法得出结论。
2. 样本谬误
•样本量不够
统计学的基础理论基⽯之⼀就是⼤数定律,只有当数据量达到⼀定程度后,才能反映出特定的规律。
如果出现样本量极少的情况,建议把时间线拉长,获得⾜量的样本。或者将不重要的限定条件去掉,增加样本数。
•存在选择性偏见或者幸存者偏见
统计学的另⼀⼤理论基⽯是中⼼极限定理。简单描述就是,总体样本中,任意⼀个体样本的平均值,都会围绕在这个体的整体平均值周围。
举个例⼦,在应⽤升级期间,衡量登录⽤户数、交易⽤户数等指标,来判断⽤户对新版本的喜欢是否优于⽼版本。听上去⾮常合理,但这⾥实际就隐藏了选择性偏见,因为新版本发布时,第⼀批升级上来的⽤户往往就是最活跃的⽤户,往往这批⽤户的指标较好,但不代表新版本更好。
•混⼊脏数据
这种数据的破坏性⽐较⼤,可能得出错误的结论。通常我们会采⽤数据校验的⼿段,屏蔽掉校验失败的数据。同时,在分析具体业务时,也要针对特定业务,对所使⽤的数据进⾏合理性限定,过滤掉异常离值,来确保拥有⽐较好的数据质量。
3. 因果相关谬误
会误把相关当因果,忽略中介变量。⽐如,有⼈发现雪糕的销量和河溪溺死的⼉童数量呈明显相关,就下令削减雪糕销量。其实可能只是因为这两者都是发⽣在天⽓炎热的夏天。天⽓炎热,购买雪糕的⼈就越多,⽽去河⾥游泳的⼈也显著增多。
4. ⾟普森悖论
简单来说,就是在两个相差较多的分组数据相加时,在分组⽐较中都占优势的⼀⽅,会在总评中反⽽是失势的⼀⽅。
5. 个⼈认知谬误
主观臆断、经验当事实、个体当整体、特征当全貌、眼见当事实。
举个主观臆断的例⼦:某个产品A页⾯到B页⾯的转化率30%,直接判断为很低,推导出可以提⾼到75%。但实际类似产品或者⽤户⾏为决定页⾯的转化率就只有这么⾼,得出⼀个错误的结论。
标准⾄关重要,数据+标准=判断。有了判断才能深⼊分析。通过分组对⽐标准(象限法、多维法、⼆⼋法、对⽐法),有标准通过分析对⽐,到“好/坏”的点。
统计学规律和理论不会错,犯错的是使⽤它的⼈。因此,我们在进⾏数据分析时,⼀定要格外⼩⼼,错误的数据,披上科学的外⾐,就很难分辨了。
END
SQL题库
Excel函数/可视化/数据透视表
200+Python实战案例
......
想了解更多数据分析技能知识
【爱数据技能交流】
与5W+⼩伙伴们⼀起学习
还能定期领取资料哦~