第四章 多元线性回归模型(管理预测)

发布于:2021-08-02 08:40:34

第四章 多元线性回归模型

内容提要
第一节 多元线性回归模型的建立及假定条件

第二节 最小二乘法
第三节 最小二乘估计量的特性

第四节 可决系数
第五节 显著性检验与置信区间

第六节 预测
第七节 案例分析
2014-4-21 2

第一节 多元线性回归模型的

建立及假定条件

一、基本概念
? 假设被解释变量Y是解释变量X1,X2,┅,Xk和
随机误差项u的线性函数,表达式为:

Y ? β0 ? β1 X 1 ? β 2 X 2 ? ... ? β k X k ? u
——总体回归模型

E (Y ) ? β 0 ? β1 X 1 ? β 2 X 2 ? ... ? β k X k
——总体回归线(方程)
2014-4-21 4

例4.1:

Y ? β 0 ?β 1 X ?β 2 P ? u
其中:Y=在食品上的总支出;
X=个人可支配收入; P=食品价格指数; 用美国 1959-1983 年的数据(单位: 10 亿美元), 得到如下回归结果(括号中数字为标准误差):

? ? 116.7 ? 0.112 X ? 0.739 P Y (9.6) (0.003) (0.114)
2014-4-21

R 2 ? 0.99

5

多元线性回归模型中斜率系数的含义

上例中斜率系数的含义说明如下:
价格不变的情况下,个人可支配收入每上升 10 亿 美元( 1 个 billion ),食品消费支出*均增加 1.12 亿 元(0.112个 billion)。 收入不变的情况下,价格指数每上升一个点,食 品消费支出*均减少7.39亿元(0.739个billion)

2014-4-21

6

例 4.2 : 某地区通过一个样本容量为 722 的调查数据得
到劳动力受教育的一个回归方程为

Y ? 10.36 ? 0.094 X1 ? 0.131X 2 ? 0.210 X 3

R2=0.214

式中,Y为劳动力受教育年数,X1为该劳动力家庭中兄弟姐 妹的个数,X2与X3分别为母亲与父亲受到教育的年数。 ( 1 ) X1 是否具有预期的影响?为什么?若 X2 与 X3 保持不 变,为了使预测的受教育水*减少一年,需要 X1 增加多少?

(2)请对X2的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父 母受教育的年数为 12 年,另一个的父母受教育的年数为 16 年,则两人受教育的年数预期相差多少?
2014-4-21 7

? 设( X1i,X2i,┅,Xki;Yi),i=1,2,┅,n
是对总体( X1,X2,┅,Xk;Y)的n次独立样 本观测值,则:

Yi ? β 0 ? β1 X 1i ? β 2 X 2i ? ... ? β k X ki ? u i i ? 1,2,?, n

2014-4-21

8

对于n组观测值,即:

? Y1 ? β 0 ? β1 X 11 ? β 2 X 21 ? ... ? β k X k1 ? u1 ?Y ? β ? β X ? β X ? ... ? β X ? u ? 2 0 1 12 2 22 k k2 2 ? ...... ? ? ?Yn ? β 0 ? β1 X 1n ? β 2 X 2 n ? ... ? β k X kn ? un

2014-4-21

9

其矩阵形式为: 其中:
?Y1 ? ? 1 X 11 ?Y ? ?1 X 2? 12 ? ? X? Y? ?... ... ? ... ? ? ? ? ? 1 X 1n ?Yn ? n?1

Y ? X? ? U

... X k1 ? ?? 0 ? ? u1 ? ?? ? ?u ? ... X k 2 ? ? ? ?? 1? U ? ? 2? ?... ? ? ... ? ... ... ? ? ? ? ? ? ... X kn ? n?( k ?1) ? ? k ? ( k ?1)?1 ?un ? n?1

2014-4-21

10

设样本(X1i,X2i,┅,Xki;Yi),i=1,2,┅,n

? ,? ?, ?) 估计(?0,?1, ... ,?k) ? (? ... , ? 0 1 k

? ?β ? X ?β ? X ? ... ? β ? X ?e Yi ? β 0 1 1i 2 2i k ki i
——样本回归模型

? ,? ? ,..., ? ? — — ? , ? ,..., ? 的估计值或估计量; ? 0 1 k 0 1 k ei — 残差项,拟合误差,是 ?i 的估计值。
2014-4-21 11

? ?β ? X ?β ? X ? ... ? β ? X ? ?β Y i 0 1 1i 2 2i k ki
——样本回归线(方程)

? ? ? X? 其矩阵形式为: Y
其中:

?? ?Y 1 ?? ? Y2 ? ? ? Y? ? ... ? ? ? ? ? ?Yn ? ? n?1
2014-4-21

?? ?? 0 ? ? ?? ? ? ?? 1 ? ? ? ?... ? ?? ?? ? k ? ( k ?1)?1
12

二、多元线性回归模型的基本假定
多元线性回归模型在满足下列基本假设的情况 下,可以采用普通最小二乘法(OLS)估计参数。

(1)零均值:即随机误差项是一个期望值或*
均值为零的随机变量。
E(?i) =0 i=1,2, ┅ i=1,2, ┅ 则,Yi的期望值或*均值为: E(Yi)=?0+?1X1i +?2X2i + ┅ + ?kXki
2014-4-21

13

矩阵表达式为:
? u1 ? ? E (u1 ) ? ? 0 ? ?u ? ? E (u )? ? 0 ? 2? 2 ? ? ? E (U ) ? E ? ?? ??0 ? ... ? ? ... ? ?...? ? ? ? ? ? ? ?un ? ? E (un )? ? 0 ?

2014-4-21

14

(2)同方差
对于解释变量 X1 , X2 ,┅, Xk 的所有观测
值,随机误差项具有相同方差。 Var(?i)=E(?i2) =?2 i=1,2, ┅ 则,Yi与?i具有相同的方差: Var(Yi)=?2 i=1,2, ┅

2014-4-21

15

(3)无序列相关
Cov(?i,?j)=E(?i?j)=0
则,Cov(Yi,Yj)=E(?i?j)=0

i≠j i,j=1,2, ┅

2014-4-21

16

假设(2)和(3)矩阵表达式为:
??n ? E (UU ?) n?n Var (U ) ? E[U ? E (U )]n?1[U ? E (U )]1 ?u12 u1u2 ...... u1un ? ? ?u1 ? ? ?? ? ? ? ? 2 u 2u1 u2 ...... u2un ? ? ?u2 ? ? ? ?u1 , u2 , ..., un ?? ? E ? ? E? ? ?... ? .......... .......... .......... ... ?? ? ? ? ? ? u ? 2 ? ? u u u u ...... u ?? n? ? n ? n 1 n 2 ? ? E (u12 ) E (u1u2 ) ...... E (u1un ) ? ?? 2 0 ...... 0 ? ? ? ? ? 2 2 E (u2u1 ) E (u2 ) ...... E (u2un ) ? ?0 ? ...... 0 ? ? ?? ? ? ?.......... .......... .... ? .......... .......... .......... ... ? ? ? ? 2 2 ? ?0 0 ...... ? ? ? ? E (unu1 ) E (unu2 ) ...... E (un )? ? ?

——方差-协方差矩阵
2014-4-21 17

( 4 )解释变量 X1 , X2 , … , Xk 是确定性变 量,不是随机变量;并且解释变量与随 机误差项之间不相关。即:
Cov(Xij ,?j)=E(Xij ,?j)=0 i=1,2,┅,k; j= 1,2,┅,n

2014-4-21

18

(5)?I服从正态分布

?i~N(0, ?2 )

i=1,2, ┅,n

则Yi~N(?0+?1X1i+?2X2i+┅+?kXki,?2) i=1,2, ┅ ,n

2014-4-21

19

第二节 最小二乘法

对于:

? ?β ? X ?β ? X ? ... ? β ? X ?e Yi ? β 0 1 1i 2 2i k ki i ? ?β ? X ?β ? X ? ... ? β ? X ? ?β Y i 0 1 1i 2 2i k ki i ? 1,2,...,n
残差为:

? ei ? Yi ? Y i ? X ? .... ? β ? X ? ?β ? Yi ? ? 0 1 1i k ki
问题是选择
2014-4-21

? ,? ? ,...., ? ? ,使得残差*方和最小。 ? 0 1 k
21

要使残差*方和:
2 ? ? ? X ? .... ? β ? X ? ? ?β Q( ? 0 , β1 ,..., β k ) ? ? ei ? ? Yi ? ? 0 1 1i k ki

?

?

2

为最小,则应有:
?Q ? 0, ? ?? 0 ?Q ? 0, ? ?? 1 ..., ?Q ?0 ? ?? k

2014-4-21

22

即:
? ?Q ? ?? ? ? 0 ? ?Q ? ? ? ??1 ? ? ? ?Q ? ? ? ?? k ? ?? ? X ? ... ? ? ? X ) ? (?1) ? 0 ? 2?(Yi ? ? 0 1 1i k ki ? ?? ? X ? ... ? ? ? X ) ? (? X ) ? 0 ? 2?(Yi ? ? 0 1 1i k ki 1i ... ? ?? ? X ? ... ? ? ? X ) ? (? X ) ? 0 ? 2?(Yi ? ? 0 1 1i k ki ki

2014-4-21

23

化简整理后我们得到如下 k+1个方程(即正规 方程组):
? ? ? ? X 1i ? ......? β k X ki ? Yi ?n β 0 ? β1 ?? ? ? 2 ?β 0 X 1i ? β1 X 1i ? ......? β k X ki X 1i ? ? ?..... ?? ? ? 2 ?β X ki ? β1 X ki X 1i ? ......? β k X ki ? ? 0

?

?

? ?

?

? ?

?X

1iYi

?

?

?X

ki Yi

2014-4-21

24

按矩阵形式,上述方程组可表示为:
? n ? ?? X 1i ? ? ... ?? X ki ?

?X ?X
...

1i 2

... ... ...

1i

?X

ki

X 1i ...

? X ki ?? ? X ki X1i ? ? ... ? 2 ? X ? ki ?

?? ? ? 1 1 β ? ?0 ? ? ? β ? X 11 X 12 ? 1?= ? ? ... ? ? ... ... ?? ? ? ?β k ? ? X k1 X k 2

... 1 ? ... X 1n ? ? ... ... ? ? ... X kn ?

?Y1 ? ??Yi ? ?Y ? ??X Y ? ? 2 ? ? ? 1i ? ? ... ? ?... ? ? ? ? ? ?Yn ? ??X kiYi ?

(X ' X )
即:

? ?

X'

Y

X 'Y

? ? X ?Y X ?X?
正规方程组
25

2014-4-21

则参数的最小二乘估计值为:
?1 ? ? ? ? ( X X ) X ?Y

—β的OLS估计量

2014-4-21

26

补充:样本容量问题
1.最小样本容量:是指从最小二乘原理出发,欲得
到参数估计量,不管其质量如何,所要求的样本容量的下 限。

n ≥ k+1
即样本容量必须不少于模型中解释变量的数

目(包括常数项)。这就是最小样本容量。

2.满足基本要求的样本容量
一般经验认为,当n ≥ 30或者至少n ≥ 3(k+1) 时,才能满足模型估计的基本要求。
2014-4-21 27

第三节 最小二乘估计量

的特性

一、线性性
证明:

? 令A=(X’X)-1X’
? 由古典假定(4),X1,X2,┅,Xk是非随机变 量,所以矩阵A是一个非随机的(k+1)×n阶 常数矩阵。 则:
?1 ? ? ? ( X ?X ) X ?Y ? AY

2014-4-21

29

二、无偏性
证明:
?1 ? ? 因为 β ? ( X X ) X ?Y

? ( X ?X ) ?1 X ?( X? ? U ) ? ( X ?X ) ?1 ( X ?X ) ? ? ( X ?X ) ?1 X ?U ? ? ? ( X ?X ) ?1 X ?U
?1 ? ? ? E (β) ? E ( ? ? ( X X ) X ?U )

? ? ? ( X ?X ) ?1 X ?E (U ) ??
2014-4-21 30

即:

? ? ?E( ? ) ? ?β 0 ? ? β β 0 0 ?? ? ? ? ? ? ? β β E( β 1? ? ? 1? 1) ? ? E ? ? ? ... ? ? ...... ? ? ... ? ? ? ? ? ? ? ? ? β E ( β ? k )? ? k? ? ? ? ? ?β k ?

? 是无偏估计量。 这表明,OLS估计量 ?

2014-4-21

31

三、最小方差性(有效性)
? ),我们考虑: 为求Var( ?

? ? ? ? ?? Var( ? ) ? E ? ? ? ? ? ?

?

??

?

?? ? ?

这是一个( K+1)×(K+1)矩阵,其主对角线上元素 ? ), 非主对角线元素是相应的协方差, 如下 即构成 Var( β 所示:

2014-4-21

32

? ?β ? ?? β 0 ? ?? ?0 ? β1 ? β1 ? ? ? E ? ? β0 ? β0 ? ... ? ? ? ?β ? ?β ? ? k ? ?? k

?

? ?β β 1 1

? ? ? ?β ? ... β k k ? ? ? ?

?

? ) ? ,β ? ) ? Var (β Cov ( β 0 0 1 ? ? ,β ? ) ? ) Cov ( β Var ( β 1 0 1 ?? ? ... ... ? ? ,β ? ) Cov(β ? ,β ? ) Cov ( β ? k 0 k 1 ?
下面推导此矩阵的计算公式。
2014-4-21

? ,β ? )? ... Cov(β 0 k ? ? ? ... Cov(β1 , β k ) ? ? ... ... ? ? ) ? ... Var (β k ?
33

由上一段的结果,我们有: β? β ? ( X ? X )
因此:

?

?1

X ?U

?? ? ? ? ? ? E ?? β? β ? ? β? β ? ? ? ? ??

?1 ?1 ? ? ? ? ? E ? X X ? X UU X ? X X ?
?1 ?1 ? ? ? ? ? ? X X ? X E ?U U ?X ? X X ?
?1 ?1 2 ? ? ? ? ?X X ? X ? I n X ?X X ?

?

? ?? ?1 ?1 ? ? E ? X ? X ? X ?U ? X ? X ? X ?U ?

?

??

?

?

? ?X ?X ? X ?X ?X ?X ? ? 2
?1 ?1
2014-4-21

?1 2 ? ? ?X X ? ?

34

? 的方差, 如前所述,我们得到的实际上不仅是 ? 而且是一个方差-协方差矩阵,为了反映这一事实,我 们用下面的符号表示之:

Var ? Cov(β ) ? ( X X ) ?
?1

?

?

2

展开就是:
? ? ? ? ? ? ? (β 0 ) Cov(β 0 , β1 ) ... Cov(β 0 , β K )? ? Var? ? ? ? ? ? Cov(β , β ) ? Var ( β ) ... Cov ( β , β ) 1 0 1 1 K ? ? ... ... ... ... ? ? ? ? ? ? ? ? ? Var (β K ) ? ?Cov(β K , β 0 ) Cov(β K , β1 ) ? ( X ? X ) ?1? 2
2014-4-21 35

?记 ? 则:
i

C=(X’X)-1=(Cij)
i ?1,i ?1

2 ?1 2 ? Var( ? ) ? ? ( X ?X ) i ?1,i ?1 ? ? C

i ? 0,1,?, k
2 ?1 2 ? ? ? Cov( ? i , ? j ) ? ? ( X X ) i ?1, j ?1 ? ? Ci ?1, j ?1

i ? j , i, j ? 0,1,?, k
(最小方差性的证明略)
2014-4-21 36

高斯-马尔科夫定理 对于Y=Xβ+U 以及标准假设条件(1) - ( 5 ),普通最小二乘估计量是最佳线性 无偏估计量(BLUE)

2014-4-21

37

四、?2的估计
与一元线性模型相似, ?2的无偏估计量是:

? ?X ?Y Y ?Y ? ? ? ? Se ? ? ? n ? (k ? 1) n ? (k ? 1)
2 2 2 i

?e

2014-4-21

38

例4.3:
企业管理费取决于两种重点产品的产量,线性 回归模型是:Y=?0+?1X1+?2X2+u 样本数据为:
年 管理费用 A产品产量 B产品产量
1 2 3 4 5
2014-4-21

3 1 8 3 5

3 1 5 2 4

5 4 6 4 6
39

解: ? 3? ?1 3 5 ? ? ? ? ? ? 5 15 25 ? ?1? ?1 1 4 ? ? ? ? ? ? ? Y ? 8 ;X ? 1 5 6 ;X ?X ? ? 15 55 81 ? ? ? ? ? ? 25 81 129? ? 3? ?1 2 4 ? ? ? ? 5? ?1 4 6 ? ? ? ? ? ?8 ? ? 20 ? ? 26.7 4.5 ? ? ? ? ?1 ? X ?X ? ? ? 4.5 1 ? 1.5 ? X ?Y ? ? 76 ?; ?109? ? ? 8 ? 1 .5 2 .5 ? ? ? ? ?
2014-4-21 40

? 8 ?? 20 ? ? 4 ? ? 26.7 4.5 ? ?? ? ? ? ?1 ? ? ? ( X ?X ) X ?Y ? ? 4.5 1 ? 1.5 ?? 76 ? ? ? 2.5 ? ? ? 8 ? 1.5 2.5 ??109 ? ? ? 1.5 ? ? ?? ? ? ? 所以回归模型为: Y ? 4 ? 2.5 X 1 ? 1.5 X 2 ? e

2014-4-21

41

随机扰动项的方差 ? 2的估计如下: Y ?Y ? 108

? 20 ? ? ? ? ? ?X ?Y ? ?4 2.5 ? 1.5?? 76 ? ? 106.5 ?109? ? ? ? ?X ?Y 108? 106.5 Y ?Y ? ? 2 ? ? ? ? ? 1.75 n ? k ?1 5?3 ? ) ?? ? ( X ?X ) ?1 ? 1.75 ? 26.7 ? 6.8356 Se( ?
0 11 ?1 ? ) ?? ? ? Se( ? ( X X ) 1 22 ? 1.75 ? 1 ? 2.0917 ?1 ? ) ?? ? ? Se( ? ( X X ) 2 33 ? 1.75 ? 2.5 ? 1.5811

2014-4-21

42

第四节 可决系数

一、多元样本决定系数R2
对于一元线性回归模型:

Y=β0+β1X+u
我们有:
2

R

e ? ? 1? ? ?Y ? Y ?
2 i i

2

其中,∑ei2 =残差*方和
2014-4-21 44

对于多元线性模型:

Y ? ? 0 ? ?1 X 1 ? ... ? ? k X k ? u
我们可用同样的方法定义决定系数:

R2 ? 1?
2

? ?Y ? Y ?
i

? ei

2 2

RSS ESS 或 R ? ? 1? TSS TSS

2014-4-21

45

二、总离差*方和的分解
TSS ? ? (Yi ? Y ) ? ? Yi ? nY 2 ? Y ?Y ? nY 2
2 2

? ?X ?Y ? ) 2 ? Y ?Y ? ? ESS ? ? ei2 ? ? (Yi ? Y i
? ?X ?Y ) RSS ? TSS ? ESS ? (Y ?Y ? nY 2 ) ? (Y ?Y ? ? ? ?X ?Y ? nY 2 ??

2014-4-21

46

将上述结果代入R2的公式,得到:
2 ? ? ? RSS ? X Y ? n Y R2 ? ? TSS Y ?Y ? nY 2

——决定系数R2 的矩阵形式

2014-4-21

47

R2的性质及调整思想
残差*方和的一个特点是,每当模型增加一个 解释变量,并用改变后的模型重新进行估计,残差 *方和的值会减小。由此可以推论,决定系数是一 个与解释变量的个数有关的量:

解释变量个数增加?Σei2减小?R2增大
这就给人一个错觉:要使得模型拟合得好,就 必须增加解释变量。但是,在样本容量一定的情况 下,增加解释变量必定使得自由度减少。所以用以 检验拟合优度的统计量必须能够防止这种倾向。于 是,实际中应用的统计量是进行调整后的。

二、修正决定系数: R
ESS (n ? k ? 1) R ? 1? TSS (n ? 1)
2

2

2 Adjusted R 2)如下: 定义修正决定系数 R(

(n ? 1) ESS ? 1? (n ? k ? 1)TSS

n ?1 ?1? (1 ? R 2 ) n ? k ?1

2014-4-21

49

R 2 的性质
?1.当n较大,k较小时,两者相差不大。 ?2.当n不是很大,而k又较大时,两者差别较明显; ?3.当样本容量一定时:
(1)当k≥1时, R 2 ? R 2 (2)仅当k=0时,等号成立。即 R 2 ? R 2 (3)当k增大时,二者的差异也随之增大。 (4) R 2 可能出现负值(无意义,取值为0) (当R2 < k/(n-1)时)

2014-4-21

50

引入修正的决定系数的作用
(1)用自由度调整后,可以消除拟合优度评价中解释 变量个数多少对决定系数计算的影响; (2)对于包含解释变量个数不同的模型,可以用调整 的决定系数直接比较它们拟合优度的高低。 (3)在应用过程中,R2和调整的R2值越大,拟合程 度越好。但其值越大只说明列入模型中的解释变量整 体对因变量的影响程度越大,并非说明模型中各个解 释变量对因变量的影响显著。所以模型的拟合优度并 不是判断模型质量的唯一标准,有时甚至为了追求模 型可靠度和经济意义,可以牺牲一点拟合优度。

例 4.4 设: n = 20, k = 3,

R2 = 0.70 求 R 2 。
20 ? 4

n ?1 19 2 2 解: R ? 1? (1 ? R ) ? 1 ? (1 ? 0.70) ? 0.64375 n ? k ?1
下面改变n的值,看一看 R 2 的值如何变化。我们有:
2 R 若n = 10,则 = 0.55

若n = 5, 则 R 2 = -0.20

R 2 有可能为负值。这与R2不同 (0 ? R 2 ? 1)。 由本例可看出,

2014-4-21

52

第五节 显著性检验与置信区间

一、方程的显著性检验(F检验)
方程的显著性检验:是指在一定的显著性水* 下,从总体上对模型中被解释变量与解释变量之间 的线性关系是否显著成立进行的一种统计检验。
对于模型: Yi=?0+?1X1i+?2X2i+ ? +?kXki+?i i=1,2, ?,n F检验,即检验被解释变量Y与解释变量X1, X2,…,XK之间线性关系是否显著。
2014-4-21 54

F检验的步骤
? 1.提出假设H0; ? 2.收集样本数据; ? 3.计算出ESS和RSS;

? 4.计算检验统计量F;
? 5.根据显著水*?,查出临界值F?;

? 6.作出统计推断:如果F>F?,拒绝H0;否 则不拒绝H0。F值越大,方程的总体线性 关系越显著。
2014-4-21 55

步骤如下: 1.建立假设
原假设 H0:β1 = β2 = …=βk= 0 备择假设 H1:?i不全为0(i=1,2,┅,k) 显然,当 H0 成立时,即表示模型中被解释 变量与解释变量之间不存在显著的线性关系; 当H1成立时,即表示模型的线性关系成立。 注意:一元线性回归中, F检验与t检验一致
2014-4-21 56

2.在H0成立的条件下,构造统计量
RSS / k F? ~ F (k , n ? k ? 1) ESS /(n ? k ? 1)
直观上看,回归*方和 RSS 是解释变量整体对被解 释变量Y的线性作用的结果,如果RSS/ESS的比值较大, 则解释变量整体对 Y的解释程度高,可以认为总体存在 线性关系;反之,总体可能不存在线性关系。因此 , 可 以通过该比值的大小对总体线性关系进行推断。
2014-4-21 57

3.计算,判断
给定显著性水*?,查F分布表,可得到临 界值F?(k,n-k-1),由样本求出统计量F的数值。 若 F?F?(k,n-k-1), 则拒绝 H0 ,即回归方程 显著成立; 若 F?F?(k,n-k-1), 则接受 H0 ,即回归方程

不显著。

2014-4-21

58

显著水*α的单侧 F检验拒绝域
f(F)

拒绝域 1-?
?

F?(k,n-k-1)
2014-4-21

F
59

例4.5:在某模型中,k=2,n=16,给定α=0.01,查
得F0.01(2,13)=6.70,而F=28682.51>6.70,所以
该线性模型在0.99的置信水*下显著成立。

2014-4-21

60

二、解释变量的显著性检验(t检验)
方程的总体线性关系显著 ? 每个解释变量对 被解释变量的影响都是显著的。

因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的t检验完成的。

2014-4-21

61

1.t统计量
由于参数估计量的方差为:
2 ?1 2 ? ? Var( ? i ) ? ? ( X X ) i ?1,i ?1 ? ? Ci ?1,i ?1

i ? 0,1,?, k

? ~ N ( ? , ? 2C ? i i i ?1,i ?1 )

2014-4-21

62

其中?2为随机误差项的方差,在实际计 算时,用它的估计量代替:
?2 ? ? n ? k ?1

?e

2 i

?

e ?e n ? k ?1

因此,可构造如下t统计量:
? ?? ? ?? ? ? i t? ? i ~ t (n ? k ? 1) 2 ?) ? Ci ?1,i ?1 S ( ? ? i

2014-4-21

63

2.t检验
建立原假设与备择假设:

H0:?i=0 H 1:?i?0

(i=1,2…k)

给定显著性水*?,可得到临界值t?/2(n-k-1), 由样本求出统计量t的数值,通过: |t|? t?/2(n-k-1) 或 |t|?t?/2(n-k-1)

来拒绝或接受原假设H0,从而判定对应的解释变 量是否应包括在模型中。
2014-4-21 64

三、回归系数的置信区间
? ?? ? ?? ? ? i t? ? i ~ t (n ? k ? 1) 2 ?) ? Ci ?1,i ?1 S ( ? ? i

给定显著性水*?,可得到临界值t?/2(n-k-1) 置信区间:

? ? t? ? ? t? [? ? S , ? ? S ?? ] ? i i ( n ? k ?1) ( n ? k ?1) ?
2 i 2 i

2014-4-21

65

第六节 预测

与一元线性回归模型的作法类似,预测指 的是对各自变量的某一组具体值

X 0 ? ( X 10

X 20 ... X k 0 )

来预测与之相对应的因变量值 Y0 。当然,要进 行预测,有一个假设前提应当满足,即拟合的 模型在预测期也成立。

2014-4-21

67

一、点预测
点预测值由已给定的诸X值对应的回归值给出,即:
? ?? ? X ?? ? X ? ... ? ? ? X ? ?? Y 0 0 1 10 2 20 k k0

2014-4-21

68

二、区间预测
1.单个值的预测区间
预测误差可定义为: ? e ? Y ?Y
0 0 0

可以证明,e0 ~ 正态分布 其中E (e0 ) ? 0 ?] var(e0 ) ? ? [1 ? X 0 ( X ?X ) X 0
2 ?1

证明略

? ? 2未知,故用S e 代替? 2。
2 2 2 ?] ? 则? (e0 ) ? S e [1 ? X 0 ( X ?X ) ?1 X 0
2014-4-21 69

则,Y0的置信度为?的预测区间:
?1 ?1 ? ?t ? ? ?t ? ? ? ? ?] ? ? Y0 ?[Y 1 ? X ( X X ) X , Y 1 ? X ( X X ) X0 0 ? 0 0 0 ? 0 2 2

2014-4-21

70

2.均值的预测区间
? 可以证明: var(? 0 ) ? ? 2 X 0 ( X ?X ) ?1 X 0 ? ? X 0 ( X ?X ) X 0 则Se ? ?
2 2 ?1

证明略

? E (Y0 / X 0 )的置信度为 ?的预测区间:
?1 ?1 ? ?t ? ? ?t ? ? ? ? ? ? E (Y0 / X 0 ) ?[Y X ( X X ) X , Y X ( X X ) X ?] 0 ? 0 0 ? 0 2 2

与单个值预 测的区别
2014-4-21 71

总结:多元线性回归分析计算 步骤及主要公式

2014-4-21

72

1.由样本观测值(Yi,X1i,X2i,…,Xki),(i=1,2,…,n), 写出:
? Y1 ? ?Y ? Y ? ? 2? ??? ? ? Y ? ? n? ? n?1
?1 X 11 ?1 X 12 X?? ?? ? ? 1 X ? 1n ? X ? X ? 21 k1 X ? X ? 22 k2? ? ? ? ? X ? X ? 2n kn ? n?( k ?1)

2.计算

?1 X ?X , ( X ?X) , X ?Y

2014-4-21

73

3.计算OLS估计量。
? ? ( X ?X ) ?1 X ?Y ?

4.计算被解释变量Y的拟合值。

??X ?? Y
5.计算残差*方和Σei2 。

? )?(Y ? X? ?) e?e ? (Y ? X?

? ?X ?Y ? Y ?Y ? B
2014-4-21 74

6.计算随机误差项的方差的估计量。
2 ? e e?e i ?2 ? ? ? n ? k ?1 n ? k ?1

7.进行拟合优度检验。
2 ? ? RSS ? X Y ? n Y R2 ? ? TSS YY ? ? nY 2

n ?1 R ? 1 ? (1 ? R ) n ? k ?1
2 2

8.计算参数估计量的标准差。

? ) ?? ? Ci ?1,i ?1 Se (? i
2014-4-21

(i=0,1,2,…,k)
75

9.进行F检验和t检验。

RSS / k F? ~ F (k , n ? k ? 1) ESS /(n ? k ? 1)
t? ? ? i ? 2Ci ?1,i ?1 ? ? ? ? i ~ t (n ? k ? 1) ?) S (? i

10.若模型未通过检验,则重新建立模型并重复上述步

骤;若模型通过检验,且满足模型的古典假定,则可 利用此模型进行结构分析或经济预测等实际应用。

2014-4-21

76

第七节 案例分析

经过研究,发现家庭书刊消费水*受家庭收 入及户主受教育年限的影响。
Y——家庭书刊消费水*(元/月); X1——家庭收入(元/月); X2——户主受教育年限(年)

若经调查得到一家庭的收入水*为 X1=4000 , X2=20,要求预测Y0。

Y ?? ?? X ?? X
i 0 1 1i

2 2i

??

i

2014-4-21

78

Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 450 507.7 613.9 563.4 501.5 781.5 541.8 611.1 1222.1 793.2 660.8 792.7 580.8 612.7 890.8 1121 1094.2 1253

X1
1027.2 1045.2 1225.8 1312.2 1316.4 1442.4 1641 1768.8 1981.2 1998.6 2196 2105.4 2147.4 2154 2231.4 2611.8 3143.4 3624.6

X2
8 9 12 9 7 15 9 10 18 14 10 12 8 10 14 18 16 20

2014-4-21

79

补充: 虚拟变量
Dummy Variable

一、虚拟变量的概念及作用

1、定义
? 许多经济变量是可以定量度量的。但也有一些影 响经济变量的因素无法定量度量。
? 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”。这种“量化” 通常是通过引入“虚拟变量”来完成的。 ? 根据这些因素的属性类型,构造只取“ 0”或“ 1” 的 人 工 变 量 , 通 常 称 为 虚 拟 变 量 ( dummy variable),记为D。
2014-4-21 81

例: 学历

0 D= 1

非本科学历 本科学历

性别

D=

1 0

男性 女性 1 0 城市 农村

城市与农村

D=

?一般地,在虚拟变量的设置中:
基础类型、否定类型取值为0;
2014-4-21

比较类型,肯定类型取值为1。

82

2、模型中引入虚拟变量的作用
(1)可以描述和测量定性因素的的影响。 (2)能够正确反映经济变量之间的相互关 系,提高模型的精度。 (相当于将不同 属性的样本合并,扩大了样本容量)。 (3)便于处理异常数据。
2014-4-21 83

二、虚拟变量的设置
1、虚拟变量的设置原则
(1)一个因素多个属性

如果某定性因素有 m 种互斥的属性类型
,在模型中引入 m-1 个虚拟变量。

如果不如此,m个状态引入m个虚拟变量来
表示,虚拟变量间会造成完全多重共线性。
2014-4-21 84

?例1:性别有2个互斥的属性,引用2-1=1个虚拟 变量;

?例2:文化程度分小学、初中、高中、大学、研 究生5类,引用4个虚拟变量。
?例3:已知冷饮的销售量Y除受k种定量变量Xk的 影响外,还受春、夏、秋、冬四季变化的影响, 要考察该四季的影响,只需引入三个虚拟变量即 可:
?1 春季 D1t ? ? ?0 其他
?1 夏季 D2t ? ? ?0 其他 ?1 D3t ? ? ?0

秋季 其他

则冷饮销售量的模型为:
Yt ? ? 0 ? ?1 X 1t ? ?? k X kt ? ?1 D1t ? ? 2 D2t ? ? 3 D3t ? ?t

在上述模型中,若再引入第四个虚拟变量:
?1 D4t ? ? ?0

冬季 其他

则冷饮销售模型变量为:
Yt ? ? 0 ? ?1 X 1t ? ?? k X kt ? ?1 D1t ? ? 2 D2t ? ? 3 D3t ? ? 4 D4t ? ?t

——完全多重共线性
2014-4-21 86

(2)多个因素多个属性 ? K个定性变量,每个变量有mi个属性类型(i=1, 2,…,k) ? 虚拟变量个数为:

? (m ? 1)
i i ?1

k

(3)虚拟变量在模型中,可以作解释变量,也可

以作因变量。
2014-4-21 87

2、虚拟变量的引入方式
? 虚拟变量作为解释变量引入模型有两种基本 方式:加法方式和乘法方式。

2014-4-21

88

(1)加法方式
作用:改变截距水*。
例:研究女性在工作中是否受到歧视,设Y表

示年薪,X表示工作年限,建立如下虚拟变量
模型:

Y ? ? 0 ? ?1 X ? ? 2 D ? u
其中:
D= 1
2014-4-21

0

女性 男性
89

对估*峁τ胻检验: ?若β2显著异于0,则说明存在性别歧视;

?若β2不显著异于0,则说明不存在性别歧视;
Y 男性 女性

β 0 +β β
2014-4-21
0

2

X

90

(2)乘法方式
? 用虚拟解释变量与其他解释变量相乘作为新的
解释变量,以达到调整模型斜率系数的目的。

例:不同的家庭结构,家庭消费支出的MPC可
能会发生变化。

Yt ? bo ? b1 X t ? a( Dt X t ) ? ut
其中,D=
2014-4-21

1 0

有适龄子女 无适龄子女
91

上式相当于下列两式:

?bo ? (b1 ? a) X t ? ut ?a是否显著可以表明斜率在 Yt ? ? 不同家庭结构下是否变化。 b ? b X ? u t ? o 1 t

Y

有适龄子女 无适龄子女

b0 X

2014-4-21

92

(3)一般方式(混合方式)
? 当截距与斜率发生变化时,则需要同 时引入加法与乘法形式的虚拟变量。

2014-4-21

93

例:如果男性与女性就业者的初始年薪和年薪增 加速度都有差异,则可以将加法模型和乘法模型 结合起来。

Yt ? ? 0 ? ?1 X t ? ?1Dt X t ? ? 2 Dt ? ut
D=
1
0

男性
女性

此式等价于下列两式:

女性:Yt ? ? 0 ? ?1 X t ? ut
2014-4-21

男性:Yt ? ( ? 0 ? ? 2 ) ? ( ?1 ? ?1 ) X t ? ut

94

(4)分段线性回归
在经济发生转折时期,可通过建立临界指标的虚拟变量 模型来反映。 例如:进口消费品数量Y主要取决于国民收入X的多少, 中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以 t*=1979 年为转折期,以 1979 年的国民收入 Xt*为临界值,设如下虚拟变量:
* t ? t 1 ? Dt ? ? * t ? t 0 ?

则进口消费品的回归模型可建立如下:

Yt ? ? 0 ? ?1 X t ? ? 2 ( X t ? X t* )Dt ? ?t
95

2014-4-21

OLS法得到该模型的回归方程为: ? ?? ? X ?? ? ( X ? X * )D ? ?? Y t 0 1 t 2 t t t
则两时期进口消费品函数分别为:

? ?? ?X ? ?? 当t<t*=1979年, Y t 0 1 t

当t?t*=1979年,

? ?? ? X * ) ? (? ? ?? ? )X ? ? (? Y t 0 2 i 1 2 t

2014-4-21

96

案例
? 下表列出了1998年我国城镇居民人均收入与彩
电每百户拥有量的统计资料。
彩电拥有量 y 收入等级 台 /百户 困难户 82.64 最低收入户 87.01 低收入户 96.75 中等偏下收入户 100.9 中等收入户 105.89 中等偏上收入户 109.64 高收入户 115.13 最高收入户 122.54
2014-4-21

人均收入 x 元 /年 2198.88 2476.75 3303.17 4107.26 5118.99 6370.59 7877.69 10962.16

Dt 0 0 0 1 1 1 1 1
97

建立彩电需求函数模型为:

yt ? b0 ? b1 xt ? a1Dt ? a 2 XDt ? ut
?1中高收入家庭 D?? ?0低收入家庭
估*峁
Y=55.421+0.0126*X+34.063*D1-0.009*(X*D1)

各自的需求函数:
低收入家庭:
2014-4-21

? t ? 55.421 ? 0.0126xt y ? t ? 89.484 ? 0.0036x98 y t

中高收入家庭:

例4.2 :容量为209的样本估计的解释CEO薪水的方程为
? ? 4.59 ? 0.257 ln X ? 0.011X ? 0.158D ? 0.181D ? 0.283D ln Y 1 2 1 2 3 ( 15.3) (8.03) (2.75) ( 1.775) (2.130) ( ? 2.895)

其中, Y表示年薪水(万元)、X1 表示年收入(万元)、 X2 表示公司股票收益(万元);D1、D2和D3均为虚拟变量,分 别表示金融业、消费品工业和公用事业。假设对比产业为 交通运输业。
(1)解释三个虚拟变量参数的经济含义; ( 2 )保持 X1 和 X2 不变,计算公用事业和交通运输业之间估计薪 水的*似百分比差异。该差异在1%的显著水*上是统计显著的吗? ( 3 )消费品工业和金融业之间估计薪水的*似百分比差异是多 少?写出一个使你能直接检验这个差异是否统计显著的方程。
2014-4-21 99

例 4.3 : 下面给出 1965-1970 年美国制造业利润和 销售额的季度数据。假定利润不仅与销售额有关, 而且和季度因素有关。要求对下列两种情况分别估 计利润模型。

( 1 )如果认为季度影响使利润*均值发生变异, 应如何引入虚拟变量? ( 2 )如果认为季度影响使利润对销售额的变化率 发生变异,应如何引入虚拟变量?
2014-4-21 100


相关推荐

最新更新

猜你喜欢