📈 01 · 回归分析与假设检验

一、四种模型形式的系数解释(必考 ~15分)

Past Exam Q1a + Q3a 都直接考这个。不同模型形式的解释方式完全不同,混淆就丢分

模型形式方程β₁的解释考题
线性-线性 Y = β₀ + β₁X + ε X增加1个单位,Y平均变化β₁个单位 Mock Set 1 Q3
双对数
(log-log)
lnY = β₀ + β₁lnX + ε X增加1%,Y平均变化β₁%
(β₁ = 弹性 elasticity)
Past Q1a, Q3a
半对数
(log-lin)
lnY = β₀ + β₁X + ε X增加1单位,Y平均变化
(β₁ × 100)%
二次项 Y = β₀ + β₁X + β₂X² + ε 边际效应 = β₁ + 2β₂X
(非恒定!取决于X的值)
Past Q1 (H²项)
HW 1.2
📝 真题示例 (Past Q1a):
模型:lnF = 15.50 + 1.02 lnY + 10.26H – 0.2H² – 2.21A
→ lnY系数=1.02:家庭收入每增加1%,食品支出增加1.02%
→ 弹性>1,食品对收入是奢侈品 (luxury good)
⚠️ 易错:二次项的解释不是"保持不变"!
例如 H² 系数 = -0.2:不能简单说"H²增加1单位,F减少0.2"。
正确的解释是:家庭人数对食品支出的边际效应 = 10.26 – 0.4H,随H增大而递减(diminishing returns)。

二、含虚拟变量的解释

虚拟变量类型解释模板
截距虚拟变量
例:Male=1 if male, 0 if female
"其他条件不变,男性的Y比女性平均多/少 β₁ 单位"
(必须说明相对于哪个基准组!)
斜率虚拟变量
(交互项)
例:D×X
"X对Y的效应在D=1时比D=0时多/少 β 单位"
即:X对Y的边际效应依赖于D的取值
多类别虚拟
例:3种条件 → 2个虚拟变量
规则:k类 → k-1个虚拟变量
每个虚拟变量的系数都是相对于基准组 (omitted category)
📝 真题示例 (Past Q2a):
Model 1: Price = β₀ + β₁NEW + β₂USED + β₃BIDRS
→ NEW系数=54.39:相比基准组(as new),全新iPhone售价平均高$54.39
→ USED系数=-20.45:相比基准组,有瑕疵iPhone售价平均低$20.45
→ 基准组是"as new"(被省略的类别)

三、假设检验标准5步法(每题必用 ~20分)

📋 标准模板(每次必写这5步)

1
陈述假设
H₀: βₖ = 0 (或 βₖ = 某特定值)
H₁: βₖ ≠ 0 (双侧)或 βₖ > 0 / βₖ < 0(单侧)
⚠️ 单侧还是双侧?看题目有没有预期方向!
2
设定显著性水平 α
通常 α = 0.05 (5%),或按题目要求 (1% / 10%)
3
计算检验统计量
t = (β̂ₖ − βₖ_H₀) / SE(β̂ₖ)
通常H₀下βₖ=0,所以 t = β̂ₖ / SE(β̂ₖ)
直接从Gretl输出读t-ratio即可
4
决策规则
临界值法:|t| > tcrit → 拒绝H₀
p-value法:p < α → 拒绝H₀
大样本双侧5%:t_crit ≈ 1.96
5
结论
"在α%显著性水平下,拒绝/不能拒绝H₀。有/没有足够证据表明……"
不能只说"拒绝H₀",要解释经济含义!

关键临界值速查

显著性水平 α双侧 |tcrit|单侧 |tcrit|
10%1.6451.282
5%1.9601.645
1%2.5762.326

*以上为大样本近似值(n>120)。小样本用t分布表。考试中通常直接用Gretl输出的p-value。

⚠️ 单侧p-value陷阱!
Gretl默认输出的是双侧p-value。如果题目是单侧检验:
• 输出 p/2 后与α比较(如果系数方向与H₁一致)
• 或者直接用t值和单侧临界值比较

实例:Gretl输出 p=0.08,题目是右侧检验α=5%
→ 单侧p = 0.08/2 = 0.04 < 0.05 → 拒绝H₀
→ 如果直接用0.08>0.05就说"不拒绝"——就错了!

四、F检验:整体显著性

H₀: β₁ = β₂ = ... = βₖ = 0(所有斜率同时为0)

H₁: 至少有一个 βⱼ ≠ 0

F统计量 = (ESS/k) / (RSS/(n−k−1))

决策:F值大 + p-value < 0.05 → 模型整体显著

💡 F与t的关系
• t检验:单独检验一个系数是否显著
• F检验:检验所有斜率是否联合显著
• R²=0.27但F的p<0.001是可能的——说明虽然解释力不高,但变量联合起来确实有用

五、真题演练

Past Exam Q1b (10分) — 假设检验

场景:预期收入(Y)和孩子数(A)都对食品支出有影响

给定:lnY系数=1.02, SE=0.31;A系数=-2.21, SE=1.98;n=1055, α=5%

对 lnY 的检验(右侧单侧):

  1. H₀: β_lnY = 0 H₁: β_lnY > 0(预期正效应)
  2. α = 0.05
  3. t = 1.02 / 0.31 = 3.29
  4. t_crit(单侧5%) ≈ 1.645。3.29 > 1.645 → 拒绝H₀
  5. 收入对食品支出有显著影响(弹性>0)

对 A 的检验(右侧单侧——注意陷阱!):

  1. H₀: β_A = 0 H₁: β_A > 0(预期正效应)
  2. α = 0.05
  3. t = −2.21 / 1.98 = −1.116
  4. 系数为,方向与预期相反!|t| = 1.116 < 1.645
  5. 不能拒绝H₀。没有证据表明孩子数对食品支出有正影响。
    (系数符号甚至与预期相反——这可能暗示多重共线性问题,恰好引出Q1c的VIF题)