🔧 02 · 模型设定与多重共线性

一、模型选择四大准则(必考 ~10分)

Past Exam Q2c 直接考:用任意两个准则判断 Model 1 还是 Model 2 更好。

准则公式判断方向特点
ESS/TSS = 1 − RSS/TSS 越大越好 ↑ 加变量永不下降。不适合比较不同因变量的模型
Adjusted R² 1 − [RSS/(n−k−1)] / [TSS/(n−1)] 越大越好 ↑ 惩罚多余变量。加无关变量会下降
AIC ln(RSS/n) + 2(k+1)/n 越小越好 ↓ 赤池准则。惩罚项 = 2(k+1)/n
SC (BIC) ln(RSS/n) + ln(n)(k+1)/n 越小越好 ↓ 施瓦茨准则。惩罚更重 (ln(n) > 2 当 n>7)
📝 真题示例 (Past Q2c):
Model 1: R²=0.441, Adj-R²=0.433, AIC=2078.4, SC=2092.9
Model 2: R²=0.446, Adj-R²=0.426, AIC=2079.4, SC=2096.3

按R²:Model 2 (0.446 > 0.441) → Model 2更好
按Adj-R²:Model 1 (0.433 > 0.426) → Model 1更好
结论矛盾!因为Model 2多加了变量PERCENT但不显著(p=0.162),Adj-R²下降说明它是无关变量。推荐Model 1。
⚠️ AIC/SC是越小越好,不是越大!
很多学生记反了。记住:AIC = Akaike Information Criterion —— "信息损失",越小越好。

二、遗漏变量 vs 无关变量

❌ 遗漏变量 (Omitted Variable)

后果:OLS估计有偏且不一致(最严重的问题!)

检测:RESET检验、理论预期 vs 实际符号

补救:加入遗漏变量

优先级:🔴 必须先解决

⚠️ 无关变量 (Irrelevant Variable)

后果:OLS仍无偏,但方差增大(效率损失)

检测:t检验不显著 + Adj-R²下降

补救:删除无关变量

优先级:🟡 次要问题

🥇 黄金法则:遗漏变量偏差 > 多重共线性
考试中如果同时出现遗漏变量和共线性,必须说:"先解决遗漏变量问题,因为遗漏变量导致有偏估计,而共线性只影响效率(仍无偏)。"

三、多重共线性 Multicollinearity(必考 ~10分)

VIF (Variance Inflation Factor)

公式:VIF(Xⱼ) = 1 / (1 − Rⱼ²)

其中 Rⱼ² 是以 Xⱼ 为因变量,其余所有X为自变量做回归得到的R²。

判断标准:VIF > 10 → 严重共线性

注意:VIF > 5 只是轻度共线性,考试中不要说VIF>5就有严重问题

共线性的后果

后果说明
SE膨胀标准误会变大,t值变小 → 本该显著的变量可能不显著
系数不稳定小样本变化导致系数大幅波动
系数符号异常可能出现与经济理论相反的符号
OLS仍无偏共线性不影响无偏性!这是一个重要的"好处"

两个补救方法(Past Q1e 必背!)

方法1:删除一个高度相关变量

简单直接,但可能造成遗漏变量偏差

方法2:合并相关变量

例如:TOT = 10×FAC + STU(加权组合)
或用主成分分析(PCA)降维

📝 真题示例 (Past Q1c-e):
VIF_H = 15.53, VIF_A = 20.34 → 两者均 > 10 → 严重共线性
这正是Q1b中A系数为负且不显著的原因:共线性导致SE膨胀 → t值变小
补救:删除H或A中的一个,或将H和A合并为一个"家庭规模"变量

四、Ramsey's RESET 检验

目的:检测模型设定偏误(遗漏变量、错误函数形式)

H₀:模型设定正确(无遗漏变量)

H₁:模型设定有误

做法:在原模型中加入 Ŷ², Ŷ³(拟合值的平方和立方),检验这些新增项是否联合显著

F统计量 = [(R²_aux − R²)/(新增项数)] / [(1−R²_aux)/(n − 原参数数 − 新增项数)]

若显著 → 模型设定有问题