一、模型选择四大准则(必考 ~10分)
Past Exam Q2c 直接考:用任意两个准则判断 Model 1 还是 Model 2 更好。
| 准则 | 公式 | 判断方向 | 特点 |
|---|---|---|---|
| R² | ESS/TSS = 1 − RSS/TSS | 越大越好 ↑ | 加变量永不下降。不适合比较不同因变量的模型 |
| Adjusted R² | 1 − [RSS/(n−k−1)] / [TSS/(n−1)] | 越大越好 ↑ | 惩罚多余变量。加无关变量会下降 |
| AIC | ln(RSS/n) + 2(k+1)/n | 越小越好 ↓ | 赤池准则。惩罚项 = 2(k+1)/n |
| SC (BIC) | ln(RSS/n) + ln(n)(k+1)/n | 越小越好 ↓ | 施瓦茨准则。惩罚更重 (ln(n) > 2 当 n>7) |
📝 真题示例 (Past Q2c):
Model 1: R²=0.441, Adj-R²=0.433, AIC=2078.4, SC=2092.9
Model 2: R²=0.446, Adj-R²=0.426, AIC=2079.4, SC=2096.3
按R²:Model 2 (0.446 > 0.441) → Model 2更好
按Adj-R²:Model 1 (0.433 > 0.426) → Model 1更好
→ 结论矛盾!因为Model 2多加了变量PERCENT但不显著(p=0.162),Adj-R²下降说明它是无关变量。推荐Model 1。
Model 1: R²=0.441, Adj-R²=0.433, AIC=2078.4, SC=2092.9
Model 2: R²=0.446, Adj-R²=0.426, AIC=2079.4, SC=2096.3
按R²:Model 2 (0.446 > 0.441) → Model 2更好
按Adj-R²:Model 1 (0.433 > 0.426) → Model 1更好
→ 结论矛盾!因为Model 2多加了变量PERCENT但不显著(p=0.162),Adj-R²下降说明它是无关变量。推荐Model 1。
⚠️ AIC/SC是越小越好,不是越大!
很多学生记反了。记住:AIC = Akaike Information Criterion —— "信息损失",越小越好。
很多学生记反了。记住:AIC = Akaike Information Criterion —— "信息损失",越小越好。
二、遗漏变量 vs 无关变量
❌ 遗漏变量 (Omitted Variable)
后果:OLS估计有偏且不一致(最严重的问题!)
检测:RESET检验、理论预期 vs 实际符号
补救:加入遗漏变量
优先级:🔴 必须先解决
⚠️ 无关变量 (Irrelevant Variable)
后果:OLS仍无偏,但方差增大(效率损失)
检测:t检验不显著 + Adj-R²下降
补救:删除无关变量
优先级:🟡 次要问题
🥇 黄金法则:遗漏变量偏差 > 多重共线性
考试中如果同时出现遗漏变量和共线性,必须说:"先解决遗漏变量问题,因为遗漏变量导致有偏估计,而共线性只影响效率(仍无偏)。"
考试中如果同时出现遗漏变量和共线性,必须说:"先解决遗漏变量问题,因为遗漏变量导致有偏估计,而共线性只影响效率(仍无偏)。"
三、多重共线性 Multicollinearity(必考 ~10分)
VIF (Variance Inflation Factor)
公式:VIF(Xⱼ) = 1 / (1 − Rⱼ²)
其中 Rⱼ² 是以 Xⱼ 为因变量,其余所有X为自变量做回归得到的R²。
判断标准:VIF > 10 → 严重共线性
注意:VIF > 5 只是轻度共线性,考试中不要说VIF>5就有严重问题
共线性的后果
| 后果 | 说明 |
|---|---|
| SE膨胀 | 标准误会变大,t值变小 → 本该显著的变量可能不显著 |
| 系数不稳定 | 小样本变化导致系数大幅波动 |
| 系数符号异常 | 可能出现与经济理论相反的符号 |
| OLS仍无偏 | 共线性不影响无偏性!这是一个重要的"好处" |
两个补救方法(Past Q1e 必背!)
方法1:删除一个高度相关变量
简单直接,但可能造成遗漏变量偏差
方法2:合并相关变量
例如:TOT = 10×FAC + STU(加权组合)
或用主成分分析(PCA)降维
📝 真题示例 (Past Q1c-e):
VIF_H = 15.53, VIF_A = 20.34 → 两者均 > 10 → 严重共线性
这正是Q1b中A系数为负且不显著的原因:共线性导致SE膨胀 → t值变小
补救:删除H或A中的一个,或将H和A合并为一个"家庭规模"变量
VIF_H = 15.53, VIF_A = 20.34 → 两者均 > 10 → 严重共线性
这正是Q1b中A系数为负且不显著的原因:共线性导致SE膨胀 → t值变小
补救:删除H或A中的一个,或将H和A合并为一个"家庭规模"变量
四、Ramsey's RESET 检验
目的:检测模型设定偏误(遗漏变量、错误函数形式)
H₀:模型设定正确(无遗漏变量)
H₁:模型设定有误
做法:在原模型中加入 Ŷ², Ŷ³(拟合值的平方和立方),检验这些新增项是否联合显著
F统计量 = [(R²_aux − R²)/(新增项数)] / [(1−R²_aux)/(n − 原参数数 − 新增项数)]
若显著 → 模型设定有问题