回归分析与假设检验

一、四种模型形式的系数解释（必考 ~15分）

Past Exam Q1a + Q3a 都直接考这个。不同模型形式的解释方式完全不同，混淆就丢分。

模型形式	方程	β₁的解释	考题
线性-线性	Y = β₀ + β₁X + ε	X增加1个单位，Y平均变化β₁个单位	Mock Set 1 Q3
双对数 (log-log)	lnY = β₀ + β₁lnX + ε	X增加1%，Y平均变化β₁% （β₁ = 弹性 elasticity）	Past Q1a, Q3a
半对数 (log-lin)	lnY = β₀ + β₁X + ε	X增加1单位，Y平均变化 (β₁ × 100)%	—
二次项	Y = β₀ + β₁X + β₂X² + ε	边际效应 = β₁ + 2β₂X （非恒定！取决于X的值）	Past Q1 (H²项) HW 1.2

📝 真题示例 (Past Q1a)：
模型：lnF = 15.50 + 1.02 lnY + 10.26H – 0.2H² – 2.21A
→ lnY系数=1.02：家庭收入每增加1%，食品支出增加1.02%
→ 弹性>1，食品对收入是奢侈品 (luxury good)

⚠️ 易错：二次项的解释不是"保持不变"！
例如 H² 系数 = -0.2：不能简单说"H²增加1单位，F减少0.2"。
正确的解释是：家庭人数对食品支出的边际效应 = 10.26 – 0.4H，随H增大而递减（diminishing returns）。

二、含虚拟变量的解释

虚拟变量类型	解释模板
截距虚拟变量例：Male=1 if male, 0 if female	"其他条件不变，男性的Y比女性平均多/少 β₁ 单位" （必须说明相对于哪个基准组！）
斜率虚拟变量（交互项）例：D×X	"X对Y的效应在D=1时比D=0时多/少 β 单位" 即：X对Y的边际效应依赖于D的取值
多类别虚拟例：3种条件 → 2个虚拟变量	规则：k类 → k-1个虚拟变量每个虚拟变量的系数都是相对于基准组 (omitted category)

📝 真题示例 (Past Q2a)：
Model 1: Price = β₀ + β₁NEW + β₂USED + β₃BIDRS
→ NEW系数=54.39：相比基准组（as new），全新iPhone售价平均高$54.39
→ USED系数=-20.45：相比基准组，有瑕疵iPhone售价平均低$20.45
→ 基准组是"as new"（被省略的类别）

三、假设检验标准5步法（每题必用 ~20分）

📋 标准模板（每次必写这5步）

1

陈述假设
H₀: βₖ = 0 （或 βₖ = 某特定值）
H₁: βₖ ≠ 0 （双侧）或 βₖ > 0 / βₖ < 0（单侧）
⚠️ 单侧还是双侧？看题目有没有预期方向！

2

设定显著性水平 α
通常 α = 0.05 (5%)，或按题目要求 (1% / 10%)

3

计算检验统计量
t = (β̂ₖ − βₖ_H₀) / SE(β̂ₖ)
通常H₀下βₖ=0，所以 t = β̂ₖ / SE(β̂ₖ)
直接从Gretl输出读t-ratio即可

4

决策规则
临界值法：|t| > t_crit → 拒绝H₀
p-value法：p < α → 拒绝H₀
大样本双侧5%：t_crit ≈ 1.96

5

结论
"在α%显著性水平下，拒绝/不能拒绝H₀。有/没有足够证据表明……"
不能只说"拒绝H₀"，要解释经济含义！

关键临界值速查

显著性水平 α	双侧 \|t_crit\|	单侧 \|t_crit\|
10%	1.645	1.282
5%	1.960	1.645
1%	2.576	2.326

*以上为大样本近似值（n>120）。小样本用t分布表。考试中通常直接用Gretl输出的p-value。

⚠️ 单侧p-value陷阱！
Gretl默认输出的是双侧p-value。如果题目是单侧检验：
• 输出 p/2 后与α比较（如果系数方向与H₁一致）
• 或者直接用t值和单侧临界值比较

实例：Gretl输出 p=0.08，题目是右侧检验α=5%
→ 单侧p = 0.08/2 = 0.04 < 0.05 → 拒绝H₀ ✅
→ 如果直接用0.08>0.05就说"不拒绝"——就错了！

四、F检验：整体显著性

H₀: β₁ = β₂ = ... = βₖ = 0（所有斜率同时为0）

H₁: 至少有一个 βⱼ ≠ 0

F统计量 = (ESS/k) / (RSS/(n−k−1))

决策：F值大 + p-value < 0.05 → 模型整体显著

    💡 F与t的关系

    • t检验：单独检验一个系数是否显著

    • F检验：检验所有斜率是否联合显著

    • R²=0.27但F的p<0.001是可能的——说明虽然解释力不高，但变量联合起来确实有用

五、真题演练

Past Exam Q1b (10分) — 假设检验

场景：预期收入(Y)和孩子数(A)都对食品支出有正影响

给定：lnY系数=1.02, SE=0.31；A系数=-2.21, SE=1.98；n=1055, α=5%

对 lnY 的检验（右侧单侧）：

H₀: β_lnY = 0 H₁: β_lnY > 0（预期正效应）
α = 0.05
t = 1.02 / 0.31 = 3.29
t_crit(单侧5%) ≈ 1.645。3.29 > 1.645 → 拒绝H₀
收入对食品支出有显著正影响（弹性>0）

对 A 的检验（右侧单侧——注意陷阱！）：

H₀: β_A = 0 H₁: β_A > 0（预期正效应）
α = 0.05
t = −2.21 / 1.98 = −1.116
系数为负，方向与预期相反！|t| = 1.116 < 1.645
不能拒绝H₀。没有证据表明孩子数对食品支出有正影响。
（系数符号甚至与预期相反——这可能暗示多重共线性问题，恰好引出Q1c的VIF题）