zoukankan      html  css  js  c++  java
  • 班课2

    1. classification

    即根据我们观察到的feature分类,核心是找到中间的boundary,大于该值的一类,小于该值的分到另一类(ax1+bx2+c=0)

    为了避免公式过于复杂,定义weight vector, WT=[a, b], XT=[x1, x2],故而得到新的表达式XTw=-c=t(w, t的确立如下)

    w的确认:取两边点的平均中心点分别设为p、n, w=p-n (w为一个法向量的概念)

    将w代入新的表达式中,又因为已知0.5(p+n)在boundary上,即将其代入现有表达式,求出t

    2. generative algorithm与上面方法不同,它对几种class进行分析总结,判断新进来的点更符合哪部分

    3. batch learning指所有training data从一开始就有,online learning即可以逐步补充数据

    w为固定值则为parametric,否则为non-parametric

    4. cross-validation从训练集中分出一些做测试集

    holdout method:直接取出来一部分数据做测试集

    LOOCV:用n-1个训练,1个测试,循环n次

    K-fold Cross Validation:分成K份,一份份单独做测试集 

    5. 数据类型分为numerical以及categorical,前者数字后者类别

    也可按照如下进行分类:

    irrelevant:如名字或编号,与本身无关

    nominal:数字类型的离散值但是不能不同数字之间没有关系,如1代表狗2代表猫,1  2之间没有关系

    interval:茶汁可以代表距离

    ordinary:有序的,如学生成绩

    count,binary。time

    6. evaluation matrics

    前面的True/False代表预测是否正确,后面的Positive/negative代表预测结果

    7. TPR可以用于当positive与negative数量悬殊很大的情况

    8. AUC-ROC曲线中,好的模型AUC趋近于1,坏的趋近于0,AUC=0.5意味着没有分类

    9. missing value的解决:

    a) 直接删除;数据多可行,少不可行

    b) 添加平均值或中位数,可能增加错误率,但是因为没有删除,比a更适合数据少的情况

    c)把missing value归为新的类型,不会减少数据,优于b

    d)写一个算法预测missing value,可被喻为无偏估计,可能会导致预测数据与其他数据有过强的correlation

    e)算法自身支持missing value的存在

    10. nearest neighbor基于两个点距离越近,value越相似,有关distance见前面,其中0norm为计算不同value的数量

    11. Hamming distance适用于value为Boolean时

    12. distance metric用于指导自己定义距离

    13. 所有点中的中值点距离其他所有点的距离平方和最小(squared Euclidean distance), 存在geometric median可以使该点距离其他点的距离最小,通过这个我们可以得到新的分类方法,即每加进来一个新的点就它与其他点的值进行比较,离哪个更近就归为哪类

    14. KNN即找到K个最近邻居,将均值赋给新进来的值,不需要training。为了防止feature数量级不同,通常需要进行normalization:(value-min)/(max-min),使其压缩到0 1之间

    15. NN即KNN中K=1的情况,但是attribute不可以超过20个(可以设置weight,赋予attribute不同重要性,如weight设置为距离平方的倒数)

    16. inductive bias: 我们在算法中常会默认一些情况作为试验的前提,这些前提中不正确的地方即为inductive bias

    17. 1NN variance很高但是bias很低,随着不断增长bias不断增高variance不断降低

    18. LOOCV用于解决KNN中出现的问题,对于每一个点,分别用其他的点求出这个点应该归属的分类,根据判断是否正确判断这个点是否需要删除

    19. curse of dimensionality: 当维度升高,每个区域可以拥有的数据量下降,从而导致不能用距离表示两个点之间的关系,这就是为什么attribute过大时不能使用KNN,一定使用可以weight不同的维度

  • 相关阅读:
    python_元组
    python_列表
    python_字符串
    python_序列
    RFS一些基本概念
    学习RFS,所有文章的参考
    HDU 1754 线段树 单点跟新 HDU 1166 敌兵布阵 线段树 区间求和
    第四届河南省ACM SUBSTRING 字符串处理
    蓝桥杯 手链样式 排列组合
    蓝桥杯 牌型种数 DFS
  • 原文地址:https://www.cnblogs.com/eleni/p/12401521.html
Copyright © 2011-2022 走看看