模型设定与多重共线性

一、模型选择四大准则（必考 ~10分）

Past Exam Q2c 直接考：用任意两个准则判断 Model 1 还是 Model 2 更好。

准则	公式	判断方向	特点
R²	ESS/TSS = 1 − RSS/TSS	越大越好 ↑	加变量永不下降。不适合比较不同因变量的模型
Adjusted R²	1 − [RSS/(n−k−1)] / [TSS/(n−1)]	越大越好 ↑	惩罚多余变量。加无关变量会下降
AIC	ln(RSS/n) + 2(k+1)/n	越小越好 ↓	赤池准则。惩罚项 = 2(k+1)/n
SC (BIC)	ln(RSS/n) + ln(n)(k+1)/n	越小越好 ↓	施瓦茨准则。惩罚更重 (ln(n) > 2 当 n>7)

📝 真题示例 (Past Q2c)：
Model 1: R²=0.441, Adj-R²=0.433, AIC=2078.4, SC=2092.9
Model 2: R²=0.446, Adj-R²=0.426, AIC=2079.4, SC=2096.3

按R²：Model 2 (0.446 > 0.441) → Model 2更好
按Adj-R²：Model 1 (0.433 > 0.426) → Model 1更好
→ 结论矛盾！因为Model 2多加了变量PERCENT但不显著(p=0.162)，Adj-R²下降说明它是无关变量。推荐Model 1。

⚠️ AIC/SC是越小越好，不是越大！
很多学生记反了。记住：AIC = Akaike Information Criterion —— "信息损失"，越小越好。

二、遗漏变量 vs 无关变量

❌ 遗漏变量 (Omitted Variable)

后果：OLS估计有偏且不一致（最严重的问题！）

检测：RESET检验、理论预期 vs 实际符号

补救：加入遗漏变量

优先级：🔴 必须先解决

⚠️ 无关变量 (Irrelevant Variable)

后果：OLS仍无偏，但方差增大（效率损失）

检测：t检验不显著 + Adj-R²下降

补救：删除无关变量

优先级：🟡 次要问题

🥇 黄金法则：遗漏变量偏差 > 多重共线性
考试中如果同时出现遗漏变量和共线性，必须说："先解决遗漏变量问题，因为遗漏变量导致有偏估计，而共线性只影响效率（仍无偏）。"

三、多重共线性 Multicollinearity（必考 ~10分）

VIF (Variance Inflation Factor)

公式：VIF(Xⱼ) = 1 / (1 − Rⱼ²)

其中 Rⱼ² 是以 Xⱼ 为因变量，其余所有X为自变量做回归得到的R²。

判断标准：VIF > 10 → 严重共线性

注意：VIF > 5 只是轻度共线性，考试中不要说VIF>5就有严重问题

共线性的后果

后果	说明
SE膨胀	标准误会变大，t值变小 → 本该显著的变量可能不显著
系数不稳定	小样本变化导致系数大幅波动
系数符号异常	可能出现与经济理论相反的符号
OLS仍无偏	共线性不影响无偏性！这是一个重要的"好处"

两个补救方法（Past Q1e 必背！）

方法1：删除一个高度相关变量

简单直接，但可能造成遗漏变量偏差

方法2：合并相关变量

例如：TOT = 10×FAC + STU（加权组合）
或用主成分分析（PCA）降维

📝 真题示例 (Past Q1c-e)：
VIF_H = 15.53, VIF_A = 20.34 → 两者均 > 10 → 严重共线性
这正是Q1b中A系数为负且不显著的原因：共线性导致SE膨胀 → t值变小
补救：删除H或A中的一个，或将H和A合并为一个"家庭规模"变量

四、Ramsey's RESET 检验

目的：检测模型设定偏误（遗漏变量、错误函数形式）

H₀：模型设定正确（无遗漏变量）

H₁：模型设定有误

做法：在原模型中加入 Ŷ², Ŷ³（拟合值的平方和立方），检验这些新增项是否联合显著

F统计量 = [(R²_aux − R²)/(新增项数)] / [(1−R²_aux)/(n − 原参数数 − 新增项数)]

若显著 → 模型设定有问题