matlab中散点图的线性拟合_数据分析要会简单线性回归
简单线性回归也称为⼀元线性回归,也就是回归模型中只含⼀个⾃变量,否则称为多重线性回归。简单线性回归模型为:
Y= a + bX +ε
式中,Y——因变量;
X——⾃变量;
a——常数项,是回归直线在纵坐标轴上的截距;
b——回归系数,是回归直线的斜率;
ε——随机误差,即随机因素对因变量所产⽣的影响。
以“企业季度数据”为例,先撇开其他费⽤因素,只考虑推⼴费⽤对销售额的影响,如果确定了2012年第3季度推⼴费⽤预算,通过以上数据,如何预测2012年第3季度销售额呢?
1、绘制散点图
确定好因变量和⾃变量后,我们需绘制销售额(Y)与推⼴费⽤(X1)的散点图。
STEP 01 单击【插⼊】选项卡【图表】组中的【散点图】,选择【仅带数据标记的散点图】。
STEP 02 弹出⼀张空⽩图表,选中该【图表】,单击⿏标右键,在弹出的下拉框中选择【选择数据】。
STEP 03 在弹出的【选择数据源】对话框中,单击【添加】按钮,依次在【X轴序列值(X)】输⼊“=企业季度数据!C3:C48”,在【Y轴序列值(Y)】输⼊“=企业季度数据!B3:B48”。
STEP 04 单击【确定】按钮,完成散点图绘制,如图所⽰。
从这个图中,能够直观地看出推⼴费⽤与销售额之间有⼀定的线性分布特征,我们还可以利⽤Excel图表⼯具为其添加趋势线。
STEP 01 选中图表中任⼀数据点以选中数据系列,单击【布局】选项卡【分析】组中的【趋势线】,选择【其他趋势线选项】。
STEP 02 在弹出的【设置趋势线格式】对话框中,选择【趋势线选项】下的【线性】项,并在对话框下⽅分别勾选【显⽰公式】、【显⽰R平⽅值】。
STEP 03 单击【确定】按钮,即可得到拟合直线。
拟合曲线⽅程为:Y=1.198X+4361.5,R2 =0.9055,如图所⽰。
这只是通过绘图⽅式建⽴回归分析模型的⼀个简单做法,后续还要进⼀步使⽤多个统计指标来检验,如回归模型的拟合优度检验(R2)、回归模型的显著性检验(F检验)、回归系数的显著性检验(t检验)等来综合评估回归模型的优劣,这时就需要使⽤Excel分析⼯具库中的——“回归”分析⼯具来实现。
STEP 01 单击【数据】选项卡【分析】组中的【数据分析】按钮,在弹出的【数据分析】对话框中,选择【回归】,单击【确定】按钮。
STEP 02 在弹出【回归】对话框中,对各类参数分别进⾏如下设置,如图所⽰。
输⼊
① Y值输⼊区域:输⼊需要分析的因变量数据区域,本例因变量区域为B2:B48。
② X值输⼊区域:输⼊需要分析的⾃变量数据区域,本例⾃变量区域为C2:C48。
③ 标志:本例勾选【标志】。
④ 常数为零:表⽰该模型属于严格的正⽐例模型,因本例不是,故未勾选【常数为零】。
⑤ 置信度:本例勾选此复选框,并输⼊“95%”。
输出选项
① 输出区域:本例将结果输出⾄当前⼯作表的F2单元格。
② 残差:指观测值与预测值(拟合值)之间的差,也称剩余值,本例勾选【残差】。
③ 标准残差:指(残差-残差的均值)/残差的标准差,本例勾选【标准残差】。
④ 残差图:以回归模型的⾃变量为横坐标,以残差为纵坐标绘制的散点图。若绘制的点都在以0为横轴的直线上下随机散布,则表⽰拟合结果合理,否则需要重新建模,本例勾选【残差图】。
⑤ 线性拟合图:以回归模型的⾃变量为横坐标,以因变量及预测值为纵坐标绘制的散点图,本例勾选【线性拟合图】。
⑥ 正态概率图:以因变量的百分位排名为横坐标,以因变量作为纵坐标绘制的散点图,本例勾选【正态概率图】。
STEP 03 单击【确定】按钮,结果如图所⽰。
通过Excel分析⼯具库中的“回归”分析⼯具,我们可以了解到更多信息,如回归统计表、⽅差分析表、回归系数表这三张表就分别⽤于回归模型的拟合优度检验(R2)、回归模型的显著性检验(F检验)、回归系数的显著性检验(t检验)。
2、回归统计表
回归统计表⽤于衡量因变量Y与⾃变量X之间相关程度的⼤⼩,以及检验样本数据点聚集在回归直线周围的密集程度,从⽽评价回归模型对样本数据的代表程度,即回归模型的拟合效果,主要包含以下5个部分。
① Multiple R:因变量Y与⾃变量X之间的相关系数绝对值,本例R=0.9516,销售额与推⼴费⽤⾼度正相关。
② R Square:判定系数R2(也称拟合优度或决定系数),即相关系数R的平⽅,R2越接近1,表⽰回归模型拟合效果越好。本例
R2=0.9055,回归模型拟合效果好。
③ Adjusted R Square:调整判定系数Adjusted R2,仅⽤于多重线性回归时才有意义,它⽤于衡量加⼊其他⾃变量后模型的拟合程度。
④ 标准误差:其实应当是剩余标准差(Std. Error of the Estimate),这是Excel中的⼀个Bug。在对多个回归模型⽐较拟合程度时,通常会⽐较剩余标准差,此值越⼩,说明拟合程度越好,本例剩余标准差为526.41。
⑤ 观测值:⽤于估计回归模型的数据个数(n),本例n=46。
2、⽅差分析表
⽅差分析表的主要作⽤是通过F检验来判断回归模型的回归效果,即检验因变量与所有⾃变量之间的线性关系是否显著,⽤线性模型来描述它们之间的关系是否恰当。表中主要有Df(⾃由度)、SS(误差平⽅和)、MS(均⽅差)、F(F统计量)、Significance F(P值)五⼤指标,通常我们只需要关注F、Significance F两个指标,其中主要参考Significance F,因为计算出F统计量,还需要查统计表(F分布临界值表),并与之进⾏⽐较才能得出结果,⽽P值可直接与显著性⽔平α⽐较得出结果。
① F:F统计量,⽤于衡量变量间线性关系是否显著,本例中F=421.54。
② Significance F:是在显著性⽔平α(常⽤取值0.01或0.05)下的F的临界值,也就是统计学中常说的P值。⼀般我们以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义;如果0.01
3、回归系数表
回归系数表主要⽤于回归模型的描述和回归系数的显著性检验。回归系数的显著性检验,即研究回归模型中的每个⾃变量与因变量之间是否存在显著的线性关系,也就是研究⾃变量能否有效地解释因变量的线性变化,它们能否保留在线性回归模型中。
回归系数表(上图左侧第三个表)中,第⼀列的Intercept、推⼴费⽤,分别为回归模型中的a(截距)、b(斜率),对于⼤多数回归分析来讲,关注b要⽐a重要;第⼆列是a和b的值,据此可以写出回归模型;第四、五列分别是回归系数t检验和相应的P值,P值同样与显著性⽔平α进⾏⽐较,最后⼀列是给出的a和b的95%的置信区间的上下限。
最终我们得到的销售额和推⼴费⽤的简单线性回归模型为Y=4361.4864+1.1980X,其中判定系数R2 =0.9055,回归模型拟合效果较好。回归模型的F检验与回归系数的t检验相应的P值都远⼩于0.01,具有显著线性关系。综合来说,回归模型拟合较好。怎么做数据分析
我们将制订的2012年第3季度的推⼴预算值代⼊回归模型,就可以预测出2012年第3季度的销售额。