• [数据挖掘]熵和分类算法


    信息熵

    [Entropy(S)=Entropy(p_1,...p_n)=-sum_{i=1}^{n}p_ilog_2(p_i) ]

    熵越小,越纯,熵为0的时候,所有样本的目标属性取值相同

    熵越大,越混乱,最大为(log2(m)),(m)是取值种类.

    信息增益

    信息增益是划分样本数据集的不纯程度和花粉后样本数据集的不纯程度的差值.

    [Gain(S,A)=Entropy(S)-Entropy_A(S)\ Entropy_A(S)=sum_{i=1}^{k}frac{S_i}{S}Entropy(S_i) ]

    信息增益越大,说明使用属性A划分后的样本子集越纯,越有利于分类.

    ID3算法

    不断选择信息增益最大的属性A来划分子集,直到子集中的样本属于同一个类别

    朴素贝叶斯分类算法

    得到一个未知样本(X)时,对于每个类别(m),计算

    [P(X|C_j)=prod_{i=1}^{n}P(x_i|C_j)\ P(C_j)\ mu=P(X|C_j)P(C_j) ]

    找到一个类别使得(mu)最大,(X)属于该类别.

    K-最近邻分类方法

    对于每个测试样本(X),计算他与每个训练样本的距离,距离样本(X)最近的几个训练样本占多数的类别就是(X)所属的类别

  • 相关阅读:
    批量清理harbor镜像
    常用的git命令
    Gentoo网络管理方法总结
    Pelican主题配置:elegant
    Pelican搭建静态博客
    UNIX基础--安装应用程序: Packages 和 Ports
    UNIX基础--Manual Pages
    UNIX基础--Shells
    UNIX基础--进程和守护进程
    UNIX基础--磁盘组织
  • 原文地址:https://www.cnblogs.com/zzidun-pavo/p/14204399.html
走看看 - 开发者的网上家园