《统计学习方法》李航 读书笔记
第1章
模型、策略、算法
模型:问题的建模,一般是条件概率的设计或者是决策函数的设计。
策略:一般是损失函数的设计。
算法:模型参数的寻优问题,例如 SGD,或者 Softmax。
机器学习基础知识
查准率、查全率、准确率定义
[Preision = frac{TP}{TP+FP} \
Recall = frac{TP}{TP+FN} \
Accuracy = frac{TP+TN}{TP+FP+TN+FN}
]
第9章
例9.1(三硬币模型)
详细计算过程
已知投掷 10 次硬币,得到硬币正面 6 个,背面 4 个。
初值 (pi^{(0)}=0.5 quad p^{(0)} = 0.5 quad q^{(0)} = 0.5)
[egin{align}
y_j = 1 时,& mu^{(1)} = frac{0.5 imes(0.5)^{1}}{0.5 imes(0.5)^{1} + (1-0.5)(0.5)^1} = 0.5 \
y_j = 0 时,& mu^{(1)} = 0.5 \
pi^{(1)} &= frac{1}{10} sum_{j=1}^{10}0.5 = 0.5 \
p^{(1)} &= frac{6 imes0.5 imes1+4 imes0.5 imes0}{5} = 0.6 \
q^{(1)} &= frac{6 imes(1-0.5)}{10 imes(1-0.5)} = 0.6
end{align}
]
迭代第一次,得到 (pi^{(1)} = 0.5 quad p^{(1)} = 0.6 quad q^{(1)}=0.6)
[egin{align}
y_j = 1 时,& mu^{(2)} = frac{0.5 imes(0.6)^{1}}{0.5 imes(0.6)^{1} + (1-0.5)(0.6)^1} = 0.5 \
y_j = 0 时,& mu^{(2)} = frac{0.5 imes(1- 0.6)^{1}}{0.5 imes(0.6)^{0} imes(1-0.6)^{1-0} + (1-0.5)(0.6)^0(1-0.6)^1} = 0.5 \
pi^{(2)} &= frac{1}{10} sum_{j=1}^{10}0.5 = 0.5 \
p^{(2)} &= frac{6 imes0.5 imes1+4 imes0.5 imes0}{5} = 0.6 \
q^{(2)} &= frac{6 imes(1-0.5)}{10 imes(1-0.5)} = 0.6
end{align}
]
迭代第二次,得到 (pi^{(2)} = 0.5 quad p^{(2)} = 0.6 quad q^{(2)}=0.6) ,收敛。
公式推导
已知随机变量A,B,C都服从0-1分布,所以有如下分布律
[egin{equation}
left{
egin{gathered}
X_{A} sim b(1,pi) \
X_{B} sim b(1,p) \
X_{C} sim b(1,q)
end{gathered}
ight.
end{equation}
]
由此可以得到第二枚硬币(可能是B或C)的分布律
[egin{equation}
left{
egin{array}
Y_{Z} &= X_{A} \
Y_{B} &sim pi b(1,p) \
Y_{C} &sim (1-pi) b(1,q)
end{array}
ight.
end{equation}
implies
Y = Y_B + Y_C sim pi b(1,p) + (1-pi) b(1,q)
]
习题
1.1 伯努利模型下的极大似然估计与贝叶斯估计。
答:
伯努利模型:总体信息、样本信息
[P(A| heta) = sum_{i=1}^{N}frac{I(O_i = 1)}{N} quad ^{[1]}
]
贝叶斯估计:总体信息、样本信息、先验信息
[P(A| heta_{Bayes}) = frac{k+1}{N+2}
]
[1] 《概率论与数理统计(第二版)》卯师松. 高等教育出版社
1.2 当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
经验风险最小化 (min frac{1}{N}sum_{i=1}^{N} L(y_i|f(x_i)))
对数损失函数 (L(Y,P(X|Y)) = -log P(Y|X))
证明:
损失函数为对数函数时的经验风险最小化
[egin{align}
min frac{1}{N}sum_{i=1}^{N} -log P(Y|X) & = max frac{1}{N}sum_{i=1}^{N} log P(Y|X) \
& Longrightarrow max frac{1}{N}logsum_{i=1}^{N} P(Y|X) \
& Longrightarrow max frac{1}{N} sum_{i=1}^{N} P(Y|X) quad 极大似然估计
end{align}
]
9.1 用初值 (pi^{(0)}=0.46 quad p^{(0)} = 0.55 quad q^{(0)} = 0.67) 迭代例9.1
初值 (pi^{(0)}=0.46 quad p^{(0)} = 0.55 quad q^{(0)} = 0.67)
[egin{align}
y_j=1时&,u_j^{(1)} = frac{0.46 imes0.55}{0.46 imes0.55+(1-0.46)0.67} = 0.4115 \
y_j=0时&,u_j^{(1)} = frac{0.46 imes(1-0.55)}{0.46 imes(1-0.55)+(1-0.46)(1-0.67)} = 0.5374 \
pi^{(1)} &= frac{6 imes0.4115+4 imes0.5374}{10} = 0.4619 \
p^{(1)} &= frac{6 imes0.4115}{6 imes0.4115 + 4 imes0.5374} = 0.5346 \
q^{(1)} &= frac{6 imes(1-0.4115)}{6 imes(1-0.4115)+4 imes(1-0.5374)} = 0.6561
end{align}
]
第一次迭代,得到 (pi^{(1)} = 0.4619 quad p^{(1)} = 0.5346 quad q^{(1)}=0.6561)
[egin{align}
y_j=1时&, u_j^{(2)} = frac{0.4619 imes0.5346}{0.4619 imes0.5346 + (1-0.4619)0.6561} = 0.4117 \
y_j=0时&, u_j^{(2)} = frac{0.4619 imes(1-0.5346)}{0.4619 imes(1-0.5346) + (1-0.4619)(1-0.6561)} = 0.5347 \
pi^{(2)} &= frac{6 imes0.4117+4 imes0.5374}{10} = 0.4620 \
p^{(2)} &= frac{6 imes0.4117}{6 imes0.4117+4 imes0.5374} = 0.5347 \
q^{(2)} &= frac{6 imes(1-0.4117)}{6 imes(1-0.4117) + 4 imes(1-0.5374)} = 0.6561
end{align}
]
第二次迭代,得到 (pi^{(1)} = 0.4620 quad p^{(1)} = 0.5347 quad q^{(1)}=0.6561) ,收敛。
9.2 证明 (P(Y| heta) = sum_{Z}P(Z| heta)P(Y|Z, heta)) 。
[egin{align}
P(Y| heta) & = P(Y,Z| heta) \
& = sum_{i=1}^{N} P(Y,z_i | heta) \
& = sum_{i=1}^{N} P(Y |z_i, heta) P(z_i| heta) quad ,根据P(Y,Z)=P(Y|Z)P(Z)\
& = sum_{i=1}^{N} P(z_i| heta) P(Y |z_i, heta)
end{align}
]
证毕