2.1
数据集包含500正例和500反例,按照70%的比例划分训练集和验证集,则验证集需要有150个正例、150个反例,
则共有$ left ( C_{500}^{150} ight )^{2}$ 种划分方式。
2.2
数据集包含100个样本,10折交叉验证时,每个训练集应该有45正例、45反例,验证集应该有5正例、5反例,由于训练集中正例、反例比例为1:1,则按照题目的预测算法,预测时会进行随机预测(因为训练样本数比例相同),所以错误率的期望为50%
留一法时,留下来做验证集的样本有两种情况:正例、反例。当留下来的是正例时,训练集中反例比正例多一个,按照题目的算法会将验证集预测为反例,预测错误;留下来的是反例时同理,会将验证集预测为正例。所以错误率的期望为100%
2.3
F1的大小与BEP的大小没有明确的关系。
根据公式 $F1=frac{2*P*R}{P+R}$ ,而BEP是查准率和查全率相等的点,即BEP=P=R,带入前式有$F1=frac{2*P*R}{P+R}=frac{2*P*P}{P+P}=P=BEP$,可以认为F1=BEP吗?显然不可以。可以构造反例进行验证,容易构造BEP相同的两个分类器的F1值并不相同,分类器将所有训练样本按自己认为是正例的概率排序,排在越前面分类器更可能将它判断为正例。按顺序逐个把样本标记为正,当查准率与查全率相等时,BEP=P=R。当然分类器的真实输出是在这个序列中的选择一个位置,前面的标记为正,后面的标记为负,这时的查准率与查全率用来计算F1值。可以看出有同样的BEP值的两个分类器在不同位置截断可能有不同的F1值,F1的大小与BEP的大小没有明确的关系。
2.4
查全率: 真正的正例被预测为正例的比率
真正例率:真正的正例被预测为正例的比率
显然查全率=真正例率
查准率: 预测的正例中真正的正例所占的比率
假正例率:真正的反例被预测为正例的比率
查准率与假正例率没有数值上的关系
2.5
2.6
ROC曲线的每个点对应了一个真正例率TPR与假正例率FPR,此时对应了一个错误率。
ROC曲线的每个点对应一个TPR和FPR,此时对应一个错误率:$E_{cost}=frac{(m^{+}*(1-TPR)*cost_{01}+m^{-}*(1-FPR)*cost_{10})}{(m^{+}+m^{-})}$
而学习器会选择错误率最小的点作为截断点。
2.7
参考图2.5
由定义可以知道TPR与FPR都是由0上升到1,那么FNR则是由1下降到0。
每条ROC曲线都会对应一条代价曲线,由于第一条代价线段的是(0,0)到(1,1),最后是(0,1)到(1,0),
所有代价线段总会有一块公共区域,这个区域就是期望总体代价,而这块区域的边界就是代价曲线,且肯定从(0,0)到(1,0)
在有限个样本情况下,ROC是一条折线,此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本,ROC是一条连续的折线,代价曲线也是连续的折线,每个点的切线可以求出TPR与FNR,从而得到唯一的ROC曲线
2.8
Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。
z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。
2.9
2.10