zoukankan      html  css  js  c++  java
  • 作业2

    评估方法

    留出法

    数据集分成两部分,一部分训练,一部分拿来测试。

    K 折交叉验证

    数据集分成 K 部分,K-1 部分训练,一部分拿来测试。轮流进行 K 次。

    留一验证

    每次只取数据集中的一个样本做测试集,剩余的做训练集。
    K 等于数据集数量的 K 折交叉验证

    评价指标

    基本概念

    真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)

    准确度

    (Accuracy = frac{TP+TN}{TN+FN+FP+TP})

    精度

    (precision = frac{TP}{FP+TP})

    召回率

    (recall = frac{TP}{FN+TP})

    F-Score

    (F = frac{(a^2+1)*precision*recall}{a^2*precision+recall})

    分类器

    MED 分类器

    欧式距离,计算平均欧式距离,平均距离离得近的就是那一类。
    缺点:没有考虑特征变化的不同及特征之间的相关性。

    MICD 分类器

    马式距离,计算平均马式距离,平均距离离得近的就是那一类。
    缺点:会选择方差较大的类。

    特征白化

    特征转换分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变换(白化),使每维特征的方差相等。
    解耦:去除相关性。
    白化:方差一致。

    贝叶斯规则

    (p(C_i|x)=frac{p(x|C_i)p(C_i)}{p(x)})
    (p(Ci)) 先验概率
    (p(x|Ci)) 观测似然概率
    (p(x)=∑jp(x|cj)p(cj)),所有类别样本x的边缘概率

    MAP 分类器

    利用后验概率作为度量标准,最大后验概率分类器

    最大似然估计

    给定的N个训练样本都是符合iid条件的,从 (p(x|θ)) 采样

    线性判据

    若判别模型 (f(x)) 是线性函数,则 (f(x)) 为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。
    优势是计算量少,适用于训练样本少的情况。

    Fisher 判据

    利用一些方法进行降维,然后尽量增大类间距离(类间散度),减小类内距离(类内散度)

    支持向量机

    选两类中距离决策边界最大的训练样本,使这两个向量距离尽可能大,来达到增大类间散度的目的。这两个向量被称作支持向量。

    拉格朗日乘数法

    求解条件下的最优解

  • 相关阅读:
    Swizzle在OC问题排查中的应用
    MacOS中系统提供的音频单元
    Mac catalyst 使用iOS-AudioUnit的音频采集、播放
    删除单向链表中的某一个节点
    C语言的的free和c++的delete的区别
    Mac下使用源码编译安装TensorFlow CPU版本
    ROC曲线与AUC值
    Linux中如何产生core文件?
    更改Linux默认栈空间的大小
    互信息(Mutual Information)
  • 原文地址:https://www.cnblogs.com/jhy16193335/p/12830519.html
Copyright © 2011-2022 走看看