数学建模(NO.11多元线性回归分析)
多元线性回归分析
⼀.应⽤
回归分析是数据分析中最基础也是最重要的分析⼯具,绝⼤多数的数据分析问题,都可以使⽤回归的思想来解决。
回归分析的任务就是通过研究⾃变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进⽽达到通过X去预测Y的⽬的。
常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和⽣存回归,其划分的依据是因变量Y的类型。
⼆.三个关键词苹果11怎么截图
1. 相关性:相关性⽽⾮因果性
2. Y:⾃变量
(1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
(2)P2P公司要研究借款⼈是否能按时还款,那么Y可以设计成⼀个⼆值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
(3)消费者调查得到的数据(1表⽰⾮常不喜欢,2表⽰有点不喜欢,3表⽰⼀般般,4表⽰有点喜欢,5表⽰⾮常喜欢)(定序变量)。
(4)管理学中RFM模型:F代表⼀定时间内,客户到访的次数,次数其实就是⼀个⾮负的整数。(计数变量)
(5)研究产品寿命、企业寿命甚⾄是⼈的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中⽼王60岁,现在还活的⾮常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(⽣存变量)
3. X:⾃变量
回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进⽽达到通过X去预测Y的⽬的
三.⽬的
回归分析要完成的三个使命:
1. 第⼀、识别重要变量;
2. 第⼆、判断相关性的⽅向;
3. 第三、要估计权重(回归系数)
四.回归模型分类
五.数据分类
1.三种数据
1. 横截⾯数据:在某⼀时点收集的不同对象的数据。
例如:
(1)我们⾃⼰发⾏问卷得到的数据
(2)全国各省份2018年GDP的数据
(3)⼤⼀新⽣今年体测的数据
2. 时间序列数据:对同⼀对象在不同时间连续观察所取得的数据。
例如:
(1)从出⽣到现在,你的体重的数据(每年⽣⽇称⼀次)。 (2)中国历年来GDP的数据。
(3)在某地⽅每隔⼀⼩时测得的温度数据。
3. ⾯板数据:横截⾯数据与时间序列数据综合起来的⼀种数据资源
例如:
2008‐2018年,我国各省份GDP的数据。
2.模型与数据对应
六.数据收集⽹址
上⾯的数据多半都是宏观数据,微观数据市⾯上很少
⼤家可以在搜索
另外也可以⾃⼰学习爬⾍
(1)Python等软件爬取(需要编程基础,实际学习起来不困难)⽹易云课堂:零基础21天搞定Python分布爬⾍
(2)
七.⼀元线性回归
1.概念
2.对“线性”理解
1.纠正线性
使⽤线性回归模型进⾏建模前,需要对数据进⾏预处理。⽤Excel、Matlab、Stata等软件都可以
2. 预处理
3.什么时候取对数?
⽬前,对于什么时候取对数还没有固定的规则,但是有⼀些经验法则:
(1)与市场价值相关的,例如,价格、销售额、⼯资等都可以取对数;
(2)以年度量的变量,如受教育年限、⼯作经历等通常不取对数;
(3)⽐例变量,如失业率、参与率等,两者均可;
(4)变量取值必须是⾮负数,如果包含0,则可以对y取对数ln(1+y);
取对数的好处:(1)减弱数据的异⽅差性(2)如果变量本⾝不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义
3.回归系数的解释