数据分析不懂统计学很可怕!
来源:分析客(ID:fenxike)
编辑:Juvae
别以为你拿到一组数据,可以照猫画虎做出一组漂亮的图表,你就是数据分析师了,那么你懂数据上统计学的意义吗?
做数据分析最最最基础的就是统计学,工具的操作只是帮你快速业务流程梳理出关键性的分析和指标体系,那么这些体系和指标的度量和之间的关系就要依靠统计学去界定和规范
我们经常看到某某行业,某某公司的平均工资是每年20万什么的,然后如果恰恰自己又在这个行业中,看看自己的工资条,有些人会不会感到有点迷惑和不满?其实这些都是骗人的统计方式造成的。
如果一个公司有200人,普通员工180人,工资月薪3500元;管理层员工19人,月薪假设平均为5000元;老总1人月薪是20万;那么该公司的平均月薪是13625元,员工一年的平均工资十几万了,可是实际情况却并不是像数据显示的这样。
或者我们的网站改版了,视觉变化了,或者交互功能变化了,日点击量或访问量比未改版前提高20万次,那么是否可以根据这个升高的数据说明我们的改版是成功的?显然通过上面的例子我们不能如此简单的处理数据,并得出结论。
今天,我们就一起来讨论一些简单实用的统计方法,帮助我们在工作中更好的理解数据的意义。
从Z分数、T检验、X2检验、方差分析到回归方程等,基础的统计方法就有很多种,究竟该用哪种好呢?
我个人觉得传统的统计教材没意思的原因就是书中讲述的概念过多,脱离现实谈统计,实在不好理解,或者学过就忘记,或者遇到问题不会用。如果能结合各种实例,应该就会变
得更加清晰了。所以,这里我们依靠一些例子来介绍一些常用的统计方法及适用范围,欢迎大家批评指导。
还拿我们上面的例子来说,一个网站改版了,新版的页面没有改变原来的交互操作,只是改变了视觉样式,用户访问量和点击量变化了,这些变化是好是坏?
首先我们来进行一下分析:
1、我们已知的是改版前后点击量的数据和用户访问量的数据
2 、我们想知道这个变化是好是坏
要怎么做?算一下改版前后用户的百分比和点击量的百分,如果改版后用户量下降了,点击量下降了是不是改版就不成功?显然我们不能如此简单的看问题。要比较这两个样本,我们可以使用T检验。
T检验(Student’s t test)是用于小样本(样本容量小于30,总体标准差σ未知的正态分布)的两个平均值差异程度的检验方法。
但是T检验需要方差齐性决定结果,不过别担心,统计软件会帮我们进行校验。
好,我们把采集的数据输入(这个不用我讲了吧,txt文件就行)到统计软件中,然后进行配对样本T检验(相当于对于一个处理进行前后测,所以使用配对样本T检验),得到结果如下表(用spss做的,数据是我编的):
我们只关注黄部分就可以了,其中第一项是均值,std是标准差,t值,df代表自由度,sig为p值,在本例中,我的置信区间是95%,所以如果sig<>怎么做数据分析
从表上看,改版前后点击量和用户数两项上差异并不显著,所以我们可以认为这次改版至少没引起什么不良的影响。
也许有人会觉得得出这样一个无关痛痒的结论没意思,但是请大家想一想,与其单存因为数据量上的增加或减少就兴高采烈的去邀功或者垂头丧气的准备修改方案,也许真实的统
计数据更能说明问题,可以让我们静下心,思考一下,应该如何改进我们的工作。
当然现实问题往往更复杂,仅就改版为例,我们需要考虑很多问题,例如:
1、改变了哪些内容? 外观还是交互方式?或者外观+交互方式?布局有什么变化?交互方式的变化对用户完成一个任务所需的步骤或点击次数是否有改变?
2、改版前的数据采集了多少天?改版后的数据采集了多少天?
3、改版前后的时期在每一年的相应劫夺,用户的访问量是否有显著变化?趋势是怎样的?
在这里我只是仅仅举了一个简单的例子和大家分享一下统计学的思想。
Statistics are like a bikini. What they reveal is interesting. But what they hide is vital.