怎么计算⼀组数据的波动_学会这个最基础的统计学知识,数
分析专业度提升⼀⼤截...
做数据分析统计学知识是必不可少的,统计学是数据分析的基⽯。统计学是⼀种利⽤数学理论来进⾏数据分析的技术,通过统计学我们可以⽤更富有信息驱动⼒和针对性的⽅式去对数据进⾏操作,从⽽使得我们的分析结果更加专业。今天我就来说说数据分析中最基础的统计学知识:描述统计
什么是描述性统计?
我们在做了相关的数据统计之后,将会收集到⼀系列复杂的数据信息,在这种情况下,仅仅单靠“看”数据,会让⼈⼀脸茫然。这时候就需要⽤描述性统计分析来了解数据的⼤致情况。
描述性统计要就是对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及⼀些基本的统计图形。
常⽤的指标有均值、位数、众数、⽅差、标准差等等。数据的集中趋势⼀般采⽤平均值、中位数表⽰。数据的离散程度⼀般采⽤⽅差、标准差表⽰。数据的分布情况⼀般采⽤直⽅图表⽰。
⼏个重要指标
1、众数
⼀组数据中出现最多的变量即为众数。
⽐如⼀组数据:西⽠、西⽠、南⽠、西⽠、冬⽠、苹果、苹果,其众数⾃然就是西⽠,在数据量⽐较⼤时可以借助统计软件进⾏计
算,excel中函数为mode,python中暂时没有实现众数的函数,但可以曲线救国。
2、均值
平均值这个⼤家都知道就是计算⼀组数据的平均值,了解这组数据的平均⽔平。在使⽤均值分析的过程中要注意,平均值⾮常容易受极值的影响,当数据集中出现极值时,呈现的平均⽔平结果就可能会出现不客观的现象。⽐如拿你的收⼊和马化腾、马云的收⼊放在⼀起算平均值,得出来的结果肯定不能代表你们三个平均收⼊⽔平。
3、中位数
将⼀组数据按照从⼩到⼤的顺序排列时,最中间的数据就是中位数。当数据个数为奇数时,中位数即最中间的数,当数据个数为偶数时,中位数为中间两个数的平均值。中位数不受极值影响,因此对极值缺乏敏感性。
4、分位数
中位数从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、⼗分位数和百分位数等。它们分别是⽤3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。这⾥简单介绍⼀下⽐较常见的四分位数的使⽤⽅法:
怎么做数据分析四分位数是指在把所有数值由⼩到⼤排列并分成四等份,处于三个分割点位置的数值,分割后我们会通过5个数值来描述数据的整体分布情况。
下界:最⼩值,即第0%位置的数值;
下四分位数:Q1,即第25%位置的数值;
中位数:Q2,即第50%位置的数值;
上四分位数:Q3,即第75%位置的数值;
上界:最⼤值,即第100%位置的数值。
优点是可以⽤来对⽐不同类别数据的整体情况,还可以识别出可能的异常值。缺点是⽆法反映数据的波动⼤⼩
计算⽅式:
①先求出中位数Q2:
⾸先我们要将所有数值以从⼩到⼤,从左到右的顺序进⾏排序,假设有n个数如果n是奇数,中位数就是位于中间位置的数值。如果n是偶数,中位数则是中间两个数的平均值。
②求出下四分位数和上四分位数:
下四分位数Q1的位置=(n+1)x0.25;上四分位数Q1的位置=(n+1)x0.75
举个例⼦:
我们根据下⾯的数据,分析⼀下就餐⼈员距离的问题。
以上图标已经将数据进⾏排列,总共有18个数据,接下来我们套⽤公式计算分别计算出下四分位数Q1、中位数Q2、上四分位数Q3的位置和数值:
中位数Q2:Q2位置=(18+1)x0.5=9.5,即中位数为第9和第10项的均值,Q2=(4+6)/2=5
下四分位数Q1:Q1位置=(18+1)x0.25=4.75,即下四分位数为第4和第5项的均值,Q1=(2+2)/2=2
上四分位数Q3:Q3位置=(18+1)x0.75=14.25,即上四分位数为第14和第15项的均值,Q3=(11+14)/2=12.5
(3)箱型图
在算出四分位数之后,可能有⼀些理科思维不太顺畅的⼈会看懵了,会疑问到这是表⽰什么呀?这时,就需要⽤到数据可视化了,⽤更加直观的形式去展⽰和分析数据的情况。箱型图就是四分位数的专⽤可视化图形⼯具,它能显⽰出⼀组数据的最⼤值(上界)、最⼩值(下界)、中位数、及上下四分位数。⽤Excel就能直接做出箱型图
根据就餐⼈员距离的数据计算得出四分位数后,以箱线图呈现,我们发现中位数离下四分位数较近,
这代表⼤部分数值集中在箱线图下端,集中在下四分位数和中位数之间。箱线图的作⽤主要有两个:1⽐较不同数据集、2识别异常值。
5、标准差
在统计学中,我们会⽤“离散程度”(即是变异性、波动⼤⼩)来衡量数据的稳定性。⽽“标准差”就是统计学当中⽤来在海量杂乱⽆章的数据中衡量数据相对于平均值的⼤⼩。
优势:衡量波动⼤⼩缺点:如果两个数据差别⽐较⼤,那么就⽆法⽐较。
计算公式:
假设有⼀个数据集X1、X2、X3
平均值=μ
⽅差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n
标准差σ=√ ̄⽅差
标准差⼩就证明数据整体波动⽔平越⼩。在实际⽣活中经常会⽤来计算球员的发挥稳定性。
标准差虽然能表⽰数据整体的波动,但是它有个缺点:如果两个数据差别⽐较⼤的情况下那么就⽆法进⾏⽐较。
6、离散系数
离散系数⼜称变异系数, 它是⼀组数据的标准差与其相应的平均数之⽐。
变异系数=标准差σ/平均值μ
离散系数主要⽤于⽐较不同样本数据的离散程度。离散系数⼤,说明数据的离散程度越⼤,平均指标(⼀般指平均数)的代表性越差,离散系数⼩,说明数据的离散程度也⼩。平均指标(⼀般指平均数)的代表性越好。
7、标准分:对数据进⾏归⼀化处理
标准分主要是⽤来计算出某个数值在数据中的相对位置的,标准分⼜叫Z分数或是标准化值。标准分布⼜称正态分布
计算公式:
假设有⼀个数据集X1、X2、X3
平均值=μ
标准差=σ
X2的标准分Z2=(X2-μ)/σ
标准分=某个数值距离平均值多少个标准差,通过标准分我们就可以知道这个数值与平均值的相对接近程度。标准分=0,数值=平均值;标准分>0,数值>平均值;标准分<0,数值
笔者从业数据分析多年,整理了10G的数据分析学习资料包,需要的朋友转发收藏本⽂,后台私信我“资料包”即可获得!