zoukankan      html  css  js  c++  java
  • 分类器以及归一化

    分类器的本质是什么?其实就是根据近邻算法来判断是否属于同一个区域范围;

    近邻算法的本质是什么?是距离,距离分两种,一种是曼哈顿距离,一阶算法;另外一种是欧式距离,二阶算法;

    距离怎么判断?对于监督学习,已经知道了几种分类,那么针对这些分类,距离那个分类(样本)近,就是什么分类。

    所以推演到这里离,分类器计算本质其实就是根据特征来计算和已知分类样本的距离,距离那个分类样本更近,就是什么分类。

    那么物品的距离怎么来算,我们知道可以通过欧式/曼哈顿距离来求,但是怎么计算物品间距离?特征,根据特征来计算距离。物品间的距离就是各个特征之间距离的某种形式的累加(求差再求和—曼哈顿,或者求差平方再求和再开放—欧式)。

    但是在计算的时候有问题,那就是不同特征之间的数量级可能不同,比如身高是1~2(m),但是收入确实5000~100000(元),这会导致一个问题,就是量纲小的特征的比重将会变小,无形间好像把量纲大的赋予了极大的权重,但是这个并不是我们想要的。于是这里引入了归一化(normalization),归一化的目的就是要将特征等比例将大量纲的特征的取值范围,按照某种规则映射为范围 [-1, 1];这样大家的量纲就接近了。

    归一化的计算过程

    首先求取均值;

    然后,求取标准差

    最后计算标准分

    没完事,在归一化的过程中同样有的时候,对于同一个特征,他是会有一些离群点,这些点将会导致求取平均值的时候严重拉高拉低均值,这个时候就需要采用中位数的方式来替换"均值";中位数就是将数据从小到大排列,取中间的一位(奇数)或者两位数(偶数)的均值来作为"mean"。

  • 相关阅读:
    Armbian hostname and WiFi configuration
    尼采的哲学
    深度学习 —— 使用 gensim 实现 word2vec
    sklearn preprocessing 数据预处理(OneHotEncoder)
    中英文对照 —— 饮食与美食
    matlab 常用机器学习算法的实现
    linux下svn常用指令
    Python创建删除文件
    php使用mysql和mysqli连接查询数据
    vsftpd配置文件详解
  • 原文地址:https://www.cnblogs.com/xiashiwendao/p/10160832.html
Copyright © 2011-2022 走看看