zoukankan      html  css  js  c++  java
  • lecture 4

    5. The arithmetic mean minimises squared Euclidean distance

    算数平均值可以使squared Euclidean distance最小(squared Euclidean distance指这个点到dataset里所有点的距离平方之和)

    如果用geometric median的话可以使total Euclidean distance最小,但是对于多变量数据而言,很难求到geometric median

    如果严格要求所求的点是给定点中的一个,称为medoid,否则称为centroid;寻找medoid使需要我们一个点一个点的计算

    outlier会很大程度的影响geometric median

    6. nearest centroid classifier针对每一个class求出对应的cetroid,当有新加入的点事,看新的点离哪个cetrold更近就属于哪个class。有的时候class不集中于一个位置,而是分散成几个区域,这个时候可以找到多个cetrold,使结果更精确

    7. nearest neighbour即最近的点,k-Nearest neighbour即选取k个最近的点,比如用于binary classification时,针对第一个class对该k个点进行筛选,符合为1,不符合为0,求和;同理对第二个进行

    8. 因为在求距离时,范围不一样会导致数据之间无法进行比较,故而需要进行normalization

    其中xjr是实际的距离,xjr'是normalised value(0, 1中间的一个值)

    为了防止新的数值比max大,可选取一个较大但目前没有出现的值;若已经出现这样的情况可以设为1

    k最好小于20,不然会不准确;kNN会很慢

    1NN,low bias high variance;随着k的增加bias会增加但是variance会减少(当k等于总共数据的数量,每个新点都要考虑全部点,如果在这个基础上根据距离调整占比,称为Shepard‘smethod)

    9. distance weighted kNN会根据距离调整占比,如w=1/dis,一般情况下距离越近越重要

    #可以用binary search寻找最近的K个点,如果要找的点很多,可以估计距离而不是实际求得

    tutorial

     

  • 相关阅读:
    Car HDU
    Defeat the Enemy UVALive
    Alice and Bob HDU
    Gone Fishing POJ
    Radar Installation POJ
    Supermarket POJ
    Moo Volume POJ
    Text Document Analysis CodeForces
    checkbox全选与反选

  • 原文地址:https://www.cnblogs.com/eleni/p/12381507.html
Copyright © 2011-2022 走看看