L1 Introduction · 计量经济学导论
1.1 什么是计量经济学?
计量经济学 = 经济学理论 + 统计学 + 数学
三大目的:描述经济现实 · 检验经济理论假设 · 预测未来经济活动
计量经济学的核心:提出好问题,然后用数据回答(the analyst first asks questions, then uses econometrics to answer them)
1.2 为什么需要数据分析?——人类判断的偏差
人类天生容易犯以下认知偏差(Jordan 花了9张幻灯片讲这个!):
| 偏差类型 | 含义 |
|---|---|
| Patternicity 模式倾向 | 在随机噪声中看到有意义的模式("草木皆兵") |
| Confirmation bias 确认偏误 | 只寻找支持自己观点的证据 |
| Halo effect 光环效应 | 对一个特征的印象影响对其他特征的判断 |
| Anchoring bias 锚定偏误 | 过度依赖最先获得的信息 |
| Sunk cost fallacy 沉没成本 | 因为已投入而继续坚持错误决策 |
| Group think 群体思维 | 为了群体和谐而放弃独立思考 |
1.3 Type I vs Type II 错误(核心概念!)
Type I Error · 假阳性
拒绝了真实的 H₀
例子:以为草丛里有猛兽,其实只是风
陪审团例子:错判无辜者入狱
成本:通常较低(但取决于情境)
Type II Error · 假阴性
没有拒绝错误的 H₀
例子:以为只是风,其实草丛里是猛兽
陪审团例子:释放有罪的被告
成本:通常较高(但取决于情境)
必须在两者之间权衡,取决于哪种错误的代价更大。
1.4 研究方法论
实验方法 (Experimental):严格控制条件 → 能证明因果关系
例:缩短等待时间是否能提高满意度?激励是否能提高生产率?
非实验方法 (Non-Experimental):观察数据,用统计分析控制
例:男女工资差异、不同政党的选民年龄差异
数据分析 = 利用证据的系统性过程,最大化正确决策的概率
L2 Data and Sampling · 数据与抽样
2.1 数据类型
Time Series 时间序列
记法:Yₜ (t=1,2,…,T)
特点:一个个体、多个时间点、顺序不能打乱
例:GDP、股价、失业率
图表:折线图、K线图
Cross-Sectional 截面
记法:Yᵢ (i=1,2,…,n)
特点:同一时间点、多个个体、顺序无所谓
例:各国GDP、单日病例
图表:柱状图、饼图、散点图
Panel Data 面板
记法:Yᵢₜ
特点:多个个体 + 多个时间点
例:各国多年GDP、每日各国病例
图表:多变量柱状图、等高线图
2.2 数据变换
| 变换类型 | 公式 | 用途 |
|---|---|---|
| 水平→变化量 | Returnₜ = Priceₜ − Priceₜ₋₁ |
$金额变化 |
| 水平→变化率 | Return%ₜ = (Pₜ−Pₜ₋₁)/Pₜ₋₁ × 100 |
%变化率 |
| 水平→比率 | Vol_sec = Volume/Duration |
标准化比较 |
| Z-score | z = (X−X̄)/SD(X) |
去量纲、可比 |
| 指数化 | Indexₜ = Priceₜ/Price₁ |
基期=1或100 |
2.3 概念 vs 变量 · 测量
概念 (Concept):我们想研究的抽象事物(如:创造力、学习效果)
变量 (Variable):我们用来测量概念的具体指标
信度 (Reliability):测量的一致性——每次测是否得到相同结果?
效度 (Validity):测量的准确性——是否真的测量了想测的概念?
2.4 抽样
总体 (Population):我们想了解的全部对象
样本 (Sample):我们实际能观察到的部分
核心问题:从样本推断总体——我们能推广吗?
Gretl操作:创建随机样本、设定样本条件、bootstrap重抽样
L3 Descriptive Statistics · 描述统计
3.1 集中趋势 (Central Tendency)
Mean 均值
算术平均。对异常值敏感。
对称分布中 = 中位数 = 众数
偏态分布中被拉向偏态方向
Median 中位数
排序后中间的值;第50百分位
对异常值不敏感
偏态数据中比均值更好地描述"典型"
Mode 众数
出现频率最高的值
描述"最可能"的经历
可以有多个众数
3.2 离散程度 (Dispersion)
方差 (Variance):σ² = Σ(Xᵢ−X̄)²/(n−1)
标准差 (SD):σ = √Var
自由度 (df):n − 1(因为计算均值时"用掉"了一个自由度)
计算方差前需要先估计均值 → 失去1个自由度 → 分母是 n−1 而不是 n
这就是为什么样本量越小,SD估计越不稳定!
3.3 经验法则 (68-95-99.7)
对于正态分布:
68% 的数据在 X̄ ± 1SD 内
95% 的数据在 X̄ ± 2SD 内
99.7% 的数据在 X̄ ± 3SD 内
3.4 协方差与相关系数
Covariance 协方差
Cov(X,Y) = Σ[(Xᵢ−X̄)(Yᵢ−Ȳ)]/(n−1)
正 → 同向变动;负 → 反向变动
不是 scale-free,单位依赖
Correlation 相关系数
r = Cov(X,Y)/(SDₓ × SDᵧ)
范围:−1 ≤ r ≤ +1
r=−1 完全负相关, r=0 无关, r=+1 完全正相关
是 scale-free
描述统计只能描述关联,不能推断因果。因果推断需要计量经济学方法。
L4 Distributions & Hypothesis Testing · 分布与假设检验
4.1 正态分布 (Normal Distribution)
曲线上的点 → 该事件发生的概率
曲线下的面积 → 一组事件发生的概率
Z-score:z = (X − μ)/σ → 将所有正态分布统一为标准正态 N(0,1)
4.2 Z表的使用(三种概率问题)
① P(X < a):直接查Z表
② P(X > a):1 − P(Z < z_a)
③ P(a < X < b):P(Z < z_b) − P(Z < z_a)
④ 反向:给定概率找X范围 → 用 z = ±z_α/2
μ=30', σ=5'。P(X<22'):z=(22−30)/5=−1.6 → 查表得 5.48%
P(X>37'):z=(37−30)/5=1.4 → 1−0.9192=8.08%
P(22
4.3 Gretl 命令速查
| 操作 | 正态分布 | t分布 |
|---|---|---|
| 给定z → 概率 | cnorm(z) | cDF("t",df,t) |
| 给定概率 → 临界值 | qnorm(p) | invcdf("t",df,p) |
4.4 假设检验六步法(完整版)
Step 1:建立 H₀(通常=无差异/无关系)
Step 2:建立 H₁(非定向=双侧;定向=单侧)
Step 3:选择 α 显著性水平和样本量 n
Step 4:选择合适的检验统计量和拒绝规则
Step 5:收集数据并计算检验统计量
Step 6:如果统计量落入拒绝域 → 拒绝H₀;否则不能拒绝H₀
我们不能证明H₀为真,只能说证据不足以拒绝它。
"不能拒绝H₀" ≠ "H₀为真"
4.5 Z检验 vs t检验
Z-Test
用于:大样本(n>30)或已知总体σ
检验统计量:z = (X̄−μ₀)/(σ/√n)
临界值:±1.96 (α=5%双侧)
例:学生睡眠是否<8小时?
t-Test
用于:小样本 + 未知总体σ
分布形态:自由度越小,尾部越厚
df→∞时收敛于正态分布
例:税收是否≠$30,000?
4.6 F检验 · 比较两个方差
H₀:σ_A = σ_B(两个总体的标准差相同)
检验统计量:F = s₁²/s₂²(较大方差在分子)
查F表:需要两个自由度 df₁=n₁−1, df₂=n₂−1
例:供应商A (SD=150mA,n=30) vs 供应商B (SD=250mA,n=25) → F=250²/150²=2.78 → 与F临界值比较
4.7 显著性水平α的选择
常规:α = 5%
如果 Type II 错误代价很高 → 可以放宽到 α = 10%
如果 Type I 错误代价很高 → 可以使用 α = 1%
α = significance = P(Type I error)
L5 Regression Analysis · 回归分析 (OLS)
5.1 什么是回归?
简单线性回归:Y = β₁ + β₂X + e
β₁ = 截距 (intercept);β₂ = 斜率 (slope coefficient):X增加1单位 → Y变化β₂单位
多元回归:Y = β₀ + β₁X₁ + β₂X₂ + … + βⱼXⱼ + e
βⱼ = 偏回归系数:在控制其他变量不变的情况下,Xⱼ每变化1单位对Y的影响
5.2 随机误差项 e
误差项 e 捕获了:
① 纯随机和不可预测事件
② 遗漏变量 (omitted variables)
③ 数据测量误差
④ 错误的函数形式
5.3 OLS 准则
最小化残差平方和:min Σeᵢ² = min Σ(Yᵢ − Ŷᵢ)²
OLS 选择 β̂₁ 和 β̂₂ 使得 Σ(Yᵢ−β̂₁−β̂₂Xᵢ)² 最小
5.4 TSS = ESS + RSS 分解
| 名称 | 含义 | 公式 |
|---|---|---|
| TSS 总平方和 | Y的总变异 | Σ(Yᵢ−Ȳ)² |
| ESS 解释平方和 | 模型解释的变异 | Σ(Ŷᵢ−Ȳ)² |
| RSS 残差平方和 | 未被解释的变异 | Σeᵢ² = Σ(Yᵢ−Ŷᵢ)² |
TSS = ESS + RSS
R² = ESS/TSS = 1 − RSS/TSS。OLS 最大化 R²。
5.5 R² 与 Adjusted R²
R²
0 ≤ R² ≤ 1
加变量永不下降
不能用于比较不同因变量的模型
Adjusted R²
惩罚多余变量
加无关变量会下降
可用于比较不同k的模型(同因变量)
5.6 F检验(整体显著性)
H₀:β₁ = β₂ = … = βₖ = 0(所有斜率同时为0)
H₁:至少有一个 βⱼ ≠ 0
F = (ESS/k) / (RSS/(n−k−1))
两个自由度:df₁ = k, df₂ = n−k−1
若 F > F_crit 或 p < 0.05 → 模型整体显著
5.7 t检验(单个系数显著性)
H₀:βₖ = 0 H₁:βₖ ≠ 0(双侧)或 βₖ > 0(单侧)
t = β̂ₖ/SE(β̂ₖ),自由度 = n−k−1
拒绝规则:
双侧:|t| > t_α/2, n−k−1
单侧 (βₖ>0):t > t_α, n−k−1
单侧 (βₖ<0):t < −t_α, n−k−1
5.8 置信区间
CI = β̂ ± t_crit × SE(β̂)
95% CI 的含义:重复抽样100次,约95个CI包含真实值
如果 H₀ 值落在CI内 → 不能拒绝H₀
如果 H₀ 值落在CI外 → 拒绝H₀
5.9 截距项的处理
截距有三层含义:① 真实β₀ ② 设定误差的固定影响 ③ 误差均值(如果不为零)
原则:不解释、不删除!删除截距=强制回归线过原点 → 可能偏误斜率估计
5.10 模型的线性要求
"线性回归"是指对参数(β)线性,不是对变量(X)线性!
✅ 允许非线性变量:Y = β₀ + β₁X²、Y = β₀ + β₁lnX、Y = β₀ + β₁(1/X)
❌ 不允许非线性参数:Y = β₀ + X^β₁(β以指数形式出现)
二次项和交互项都被允许——只要β是一次方即可。
L5 CLRM 七大经典假设 + 高斯-马尔可夫定理
🏆 高斯-马尔可夫定理 (Gauss-Markov Theorem)
在满足假设1-6的条件下,OLS估计量是 BLUE:
Best(最小方差) · Linear(样本的线性函数) · Unbiased(E(β̂)=β) · Estimator
| # | 假设 | 含义 | 违反后果 |
|---|---|---|---|
| 1 | 线性 + 正确设定 | 模型对参数线性;包含所有相关变量 | 遗漏变量 → 有偏且不一致 |
| 2 | 误差零均值 | E(eᵢ) = 0。截距项强制满足此条件 | 截距吸收非零均值 → 不是大问题 |
| 3 | X与e不相关 | Cov(X, e) = 0。自变量与误差独立 | 遗漏重要变量时最常见违反 → 有偏 |
| 4 | 无序列相关 | Cov(eₜ, eₛ) = 0。误差之间独立 | SE有偏(通常低估)→ t检验不可靠 |
| 5 | 同方差 | Var(eᵢ) = σ² 常数 | SE有偏 → t检验不可靠 |
| 6 | 无完全共线性 | 没有Xⱼ是其他X的精确线性组合 | 完全共线性 → OLS无法计算 高度共线性 → SE膨胀 |
| 7 | 正态性(可选) | eᵢ ~ N(0, σ²)。大样本下不必要 | 小样本t/F检验可能不准 |