📚 课程讲义总复习

L1 Introduction · 计量经济学导论

1.1 什么是计量经济学?

计量经济学 = 经济学理论 + 统计学 + 数学

三大目的:描述经济现实 · 检验经济理论假设 · 预测未来经济活动

计量经济学的核心:提出好问题,然后用数据回答(the analyst first asks questions, then uses econometrics to answer them)

1.2 为什么需要数据分析?——人类判断的偏差

人类天生容易犯以下认知偏差(Jordan 花了9张幻灯片讲这个!):

偏差类型含义
Patternicity 模式倾向在随机噪声中看到有意义的模式("草木皆兵")
Confirmation bias 确认偏误只寻找支持自己观点的证据
Halo effect 光环效应对一个特征的印象影响对其他特征的判断
Anchoring bias 锚定偏误过度依赖最先获得的信息
Sunk cost fallacy 沉没成本因为已投入而继续坚持错误决策
Group think 群体思维为了群体和谐而放弃独立思考

1.3 Type I vs Type II 错误(核心概念!)

Type I Error · 假阳性

拒绝了真实的 H₀

例子:以为草丛里有猛兽,其实只是风

陪审团例子:错判无辜者入狱

成本:通常较低(但取决于情境)

Type II Error · 假阴性

没有拒绝错误的 H₀

例子:以为只是风,其实草丛里是猛兽

陪审团例子:释放有罪的被告

成本:通常较高(但取决于情境)

💡 核心权衡:降低 Type I 错误的概率 → 增加 Type II 错误的概率
必须在两者之间权衡,取决于哪种错误的代价更大。

1.4 研究方法论

实验方法 (Experimental):严格控制条件 → 能证明因果关系

例:缩短等待时间是否能提高满意度?激励是否能提高生产率?

非实验方法 (Non-Experimental):观察数据,用统计分析控制

例:男女工资差异、不同政党的选民年龄差异

数据分析 = 利用证据的系统性过程,最大化正确决策的概率

L2 Data and Sampling · 数据与抽样

2.1 数据类型

Time Series 时间序列

记法:Yₜ (t=1,2,…,T)

特点:一个个体、多个时间点、顺序不能打乱

:GDP、股价、失业率

图表:折线图、K线图

Cross-Sectional 截面

记法:Yᵢ (i=1,2,…,n)

特点:同一时间点、多个个体、顺序无所谓

:各国GDP、单日病例

图表:柱状图、饼图、散点图

Panel Data 面板

记法:Yᵢₜ

特点:多个个体 + 多个时间点

:各国多年GDP、每日各国病例

图表:多变量柱状图、等高线图

2.2 数据变换

变换类型公式用途
水平→变化量 Returnₜ = Priceₜ − Priceₜ₋₁ $金额变化
水平→变化率 Return%ₜ = (Pₜ−Pₜ₋₁)/Pₜ₋₁ × 100 %变化率
水平→比率 Vol_sec = Volume/Duration 标准化比较
Z-score z = (X−X̄)/SD(X) 去量纲、可比
指数化 Indexₜ = Priceₜ/Price₁ 基期=1或100

2.3 概念 vs 变量 · 测量

概念 (Concept):我们想研究的抽象事物(如:创造力、学习效果)

变量 (Variable):我们用来测量概念的具体指标

信度 (Reliability):测量的一致性——每次测是否得到相同结果?

效度 (Validity):测量的准确性——是否真的测量了想测的概念?

2.4 抽样

总体 (Population):我们想了解的全部对象

样本 (Sample):我们实际能观察到的部分

核心问题:从样本推断总体——我们能推广吗?

Gretl操作:创建随机样本、设定样本条件、bootstrap重抽样

L3 Descriptive Statistics · 描述统计

3.1 集中趋势 (Central Tendency)

Mean 均值

算术平均。对异常值敏感

对称分布中 = 中位数 = 众数

偏态分布中被拉向偏态方向

Median 中位数

排序后中间的值;第50百分位

对异常值不敏感

偏态数据中比均值更好地描述"典型"

Mode 众数

出现频率最高的值

描述"最可能"的经历

可以有多个众数

3.2 离散程度 (Dispersion)

方差 (Variance):σ² = Σ(Xᵢ−X̄)²/(n−1)

标准差 (SD):σ = √Var

自由度 (df):n − 1(因为计算均值时"用掉"了一个自由度)

🔥 关键直觉:df = 可用信息量 − 需要估计的参数个数
计算方差前需要先估计均值 → 失去1个自由度 → 分母是 n−1 而不是 n
这就是为什么样本量越小,SD估计越不稳定!

3.3 经验法则 (68-95-99.7)

对于正态分布:

68% 的数据在 X̄ ± 1SD 内

95% 的数据在 X̄ ± 2SD 内

99.7% 的数据在 X̄ ± 3SD 内

3.4 协方差与相关系数

Covariance 协方差

Cov(X,Y) = Σ[(Xᵢ−X̄)(Yᵢ−Ȳ)]/(n−1)

正 → 同向变动;负 → 反向变动

不是 scale-free,单位依赖

Correlation 相关系数

r = Cov(X,Y)/(SDₓ × SDᵧ)

范围:−1 ≤ r ≤ +1

r=−1 完全负相关, r=0 无关, r=+1 完全正相关

是 scale-free

⚠️ 相关系数 ≠ 因果关系!
描述统计只能描述关联,不能推断因果。因果推断需要计量经济学方法。

L4 Distributions & Hypothesis Testing · 分布与假设检验

4.1 正态分布 (Normal Distribution)

曲线上的点 → 该事件发生的概率

曲线下的面积 → 一组事件发生的概率

Z-score:z = (X − μ)/σ → 将所有正态分布统一为标准正态 N(0,1)

4.2 Z表的使用(三种概率问题)

① P(X < a):直接查Z表

② P(X > a):1 − P(Z < z_a)

③ P(a < X < b):P(Z < z_b) − P(Z < z_a)

④ 反向:给定概率找X范围 → 用 z = ±z_α/2

📝 上班时间例子:
μ=30', σ=5'。P(X<22'):z=(22−30)/5=−1.6 → 查表得 5.48%
P(X>37'):z=(37−30)/5=1.4 → 1−0.9192=8.08%
P(2286.44%

4.3 Gretl 命令速查

操作正态分布t分布
给定z → 概率cnorm(z)cDF("t",df,t)
给定概率 → 临界值qnorm(p)invcdf("t",df,p)

4.4 假设检验六步法(完整版)

Step 1:建立 H₀(通常=无差异/无关系)

Step 2:建立 H₁(非定向=双侧;定向=单侧)

Step 3:选择 α 显著性水平和样本量 n

Step 4:选择合适的检验统计量和拒绝规则

Step 5:收集数据并计算检验统计量

Step 6:如果统计量落入拒绝域 → 拒绝H₀;否则不能拒绝H₀

⚠️ 关键:永远不说"接受H₀",只能说"拒绝"或"不能拒绝"
我们不能证明H₀为真,只能说证据不足以拒绝它。
"不能拒绝H₀" ≠ "H₀为真"

4.5 Z检验 vs t检验

Z-Test

用于:大样本(n>30)或已知总体σ

检验统计量:z = (X̄−μ₀)/(σ/√n)

临界值:±1.96 (α=5%双侧)

例:学生睡眠是否<8小时?

t-Test

用于:小样本 + 未知总体σ

分布形态:自由度越小,尾部越厚

df→∞时收敛于正态分布

例:税收是否≠$30,000?

4.6 F检验 · 比较两个方差

H₀:σ_A = σ_B(两个总体的标准差相同)

检验统计量:F = s₁²/s₂²(较大方差在分子)

查F表:需要两个自由度 df₁=n₁−1, df₂=n₂−1

:供应商A (SD=150mA,n=30) vs 供应商B (SD=250mA,n=25) → F=250²/150²=2.78 → 与F临界值比较

4.7 显著性水平α的选择

常规:α = 5%

如果 Type II 错误代价很高 → 可以放宽到 α = 10%

如果 Type I 错误代价很高 → 可以使用 α = 1%

α = significance = P(Type I error)

L5 Regression Analysis · 回归分析 (OLS)

5.1 什么是回归?

简单线性回归:Y = β₁ + β₂X + e

β₁ = 截距 (intercept);β₂ = 斜率 (slope coefficient):X增加1单位 → Y变化β₂单位

多元回归:Y = β₀ + β₁X₁ + β₂X₂ + … + βⱼXⱼ + e

βⱼ = 偏回归系数:在控制其他变量不变的情况下,Xⱼ每变化1单位对Y的影响

5.2 随机误差项 e

误差项 e 捕获了:

① 纯随机和不可预测事件

遗漏变量 (omitted variables)

③ 数据测量误差

④ 错误的函数形式

5.3 OLS 准则

最小化残差平方和:min Σeᵢ² = min Σ(Yᵢ − Ŷᵢ)²

OLS 选择 β̂₁ 和 β̂₂ 使得 Σ(Yᵢ−β̂₁−β̂₂Xᵢ)² 最小

5.4 TSS = ESS + RSS 分解

名称含义公式
TSS 总平方和Y的总变异Σ(Yᵢ−Ȳ)²
ESS 解释平方和模型解释的变异Σ(Ŷᵢ−Ȳ)²
RSS 残差平方和未被解释的变异Σeᵢ² = Σ(Yᵢ−Ŷᵢ)²

TSS = ESS + RSS

R² = ESS/TSS = 1 − RSS/TSS。OLS 最大化 R²。

5.5 R² 与 Adjusted R²

0 ≤ R² ≤ 1

加变量永不下降

不能用于比较不同因变量的模型

Adjusted R²

惩罚多余变量

加无关变量会下降

可用于比较不同k的模型(同因变量)

5.6 F检验(整体显著性)

H₀:β₁ = β₂ = … = βₖ = 0(所有斜率同时为0)

H₁:至少有一个 βⱼ ≠ 0

F = (ESS/k) / (RSS/(n−k−1))

两个自由度:df₁ = k, df₂ = n−k−1

若 F > F_crit 或 p < 0.05 → 模型整体显著

5.7 t检验(单个系数显著性)

H₀:βₖ = 0 H₁:βₖ ≠ 0(双侧)或 βₖ > 0(单侧)

t = β̂ₖ/SE(β̂ₖ),自由度 = n−k−1

拒绝规则

双侧:|t| > t_α/2, n−k−1

单侧 (βₖ>0):t > t_α, n−k−1

单侧 (βₖ<0):t < −t_α, n−k−1

5.8 置信区间

CI = β̂ ± t_crit × SE(β̂)

95% CI 的含义:重复抽样100次,约95个CI包含真实值

如果 H₀ 值落在CI内 → 不能拒绝H₀

如果 H₀ 值落在CI外 → 拒绝H₀

5.9 截距项的处理

截距有三层含义:① 真实β₀ ② 设定误差的固定影响 ③ 误差均值(如果不为零)

原则:不解释、不删除!删除截距=强制回归线过原点 → 可能偏误斜率估计

5.10 模型的线性要求

"线性回归"是指对参数(β)线性,不是对变量(X)线性!

✅ 允许非线性变量:Y = β₀ + β₁X²Y = β₀ + β₁lnXY = β₀ + β₁(1/X)

❌ 不允许非线性参数:Y = β₀ + X^β₁(β以指数形式出现)

二次项和交互项都被允许——只要β是一次方即可。

L5 CLRM 七大经典假设 + 高斯-马尔可夫定理

🏆 高斯-马尔可夫定理 (Gauss-Markov Theorem)

在满足假设1-6的条件下,OLS估计量是 BLUE

Best(最小方差) · Linear(样本的线性函数) · Unbiased(E(β̂)=β) · Estimator

#假设含义违反后果
1 线性 + 正确设定 模型对参数线性;包含所有相关变量 遗漏变量 → 有偏且不一致
2 误差零均值 E(eᵢ) = 0。截距项强制满足此条件 截距吸收非零均值 → 不是大问题
3 X与e不相关 Cov(X, e) = 0。自变量与误差独立 遗漏重要变量时最常见违反 → 有偏
4 无序列相关 Cov(eₜ, eₛ) = 0。误差之间独立 SE有偏(通常低估)→ t检验不可靠
5 同方差 Var(eᵢ) = σ² 常数 SE有偏 → t检验不可靠
6 无完全共线性 没有Xⱼ是其他X的精确线性组合 完全共线性 → OLS无法计算
高度共线性 → SE膨胀
7 正态性(可选) eᵢ ~ N(0, σ²)。大样本下不必要 小样本t/F检验可能不准
💡 考试视角:假设4被违反 → 序列相关问题(DW/BG检验)。假设5被违反 → 异方差问题(Park/White/BP检验)。假设6被违反 → 多重共线性问题(VIF)。假设1/3被违反 → 遗漏变量偏差(最严重)。