[数据挖掘]熵和分类算法 - 走看看

zoukankan html css js c++ java

[数据挖掘]熵和分类算法

信息熵

[Entropy(S)=Entropy(p_1,...p_n)=-sum_{i=1}^{n}p_ilog_2(p_i) ]
熵越小,越纯,熵为0的时候,所有样本的目标属性取值相同

熵越大,越混乱,最大为(log2(m)),(m)是取值种类.

信息增益

信息增益是划分样本数据集的不纯程度和花粉后样本数据集的不纯程度的差值.

[Gain(S,A)=Entropy(S)-Entropy_A(S)\ Entropy_A(S)=sum_{i=1}^{k}frac{S_i}{S}Entropy(S_i) ]
信息增益越大,说明使用属性A划分后的样本子集越纯,越有利于分类.

ID3算法

不断选择信息增益最大的属性A来划分子集,直到子集中的样本属于同一个类别

朴素贝叶斯分类算法

得到一个未知样本(X)时,对于每个类别(m),计算

[P(X|C_j)=prod_{i=1}^{n}P(x_i|C_j)\ P(C_j)\ mu=P(X|C_j)P(C_j) ]
找到一个类别使得(mu)最大,(X)属于该类别.

K-最近邻分类方法

对于每个测试样本(X),计算他与每个训练样本的距离,距离样本(X)最近的几个训练样本占多数的类别就是(X)所属的类别

查看全文

相关阅读:
Elasticsearch 配置优化
 一个Elasticsearch嵌套nested查询的实例
 apache kafka配置中request.required.acks含义
 filebeat配置介绍
 Linux nohup命令详解
 elasticsearch中如何手动控制全文检索结果的精准度
 elasticsearch中filter执行原理深度剖析（bitset机制与caching机制）
logback与log4j比较
 Markdown常用语法
 Asp.NetCore3.1中JWT认证入门使用(一)

原文地址：https://www.cnblogs.com/zzidun-pavo/p/14204399.html

Copyright © 2011-2022 走看看