指标
错误率(Error Rate) :m个样本中,有a个样本分类错误 ER= a/m
精准率(Accuray) = 1 - ER
均方误差(Mean Square Error):
过拟合(overfit):
从训练样本中学出适用于所有潜在样本的"普遍规律",这样才能在遇到新样本时做出正确的判别.然而,当学习器把训 练样本学得"太好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。
表现: 女神冲我微笑了--->女神喜欢我。
欠拟合(underfit):
拟合的数据偏差还比较大,high bias
评估方式
数据分为训练集,测试集和验证集,训练集用于训练模型,测试集和验证集是用来评估模型的“好坏”
划分方式:
留出法(hold out):数据集直接划分为两份,一份训练,一份测试
交叉验证法(cross validate):10折10次交叉验证法,9份训练,1份测试,最终求均值,作为评估结果
自助法:随机采样,总有0.368样本永远取不到