摘要
1.通过属性规约和属性相关分析对数据进行预处理
2.对预处理后的属性采用信息增益方法构建决策树
3.对决策树表示的知识利用决策表的规则合并方法进行合并
4.最终得出人口变动规律:未婚的高学历人口和未婚、低学历的年轻人口有较高的流动率,老年人口流动率较低,其他人口流动率一般。
引言
什么是数据挖掘?
数据挖掘是从大量不完全,有噪声,模糊,随机的数据中提取隐含在其中的人们事先不知道的,但有用的信息和知识的过程。
数据预处理
为什么进行数据预处理?
由于人口数据中存在着许多与数据挖掘任务不相关,冗余的属性,这些属性可能会减慢数据挖掘的进程,因此需要删除。
属性子集选择
进行属性子集选择,通过删除不相关或冗余的属性来减少数据量。目的是为了找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。
如何进行属性子集选择?
通常使用压缩搜索空间的启发式算法(贪心算法)。策略是做局部最优选择,期望由此导致全局最优解。
使用以下技术:
1.逐步向前选择:由空属性集作为归约集开始,确定原属性集中最好的属性,将其添加到归约集。然后进行迭代。
2.逐步向后删除:该过程由整个属性集开始。
3.逐步向前选择和逐步向后删除的组合
4.决策树归纳
属性规约(AOI)
操作:
①属性消除:它基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且(a)该属性无法进行泛化操作(如:没有定义相应的概念层次树),或(b)它更高层次概念是用其它属性描述的,这时该属性就可以从数据集中消去.
②属性泛化:它是基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且该属性存在一组泛化操作,则可以选择一个泛化操作对该属性进行处理。
控制泛化过程的方法:
①属性泛化阈值控制:该技术就是对所有属性统一设置一个泛化阈值,或每个属性分别设置一个阈值;若一个属性不同取值个数大于属性泛化阈值,就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值(一般从2到8)
②泛化关系阈值控制:若一个泛化关系中内容不相同的行数(元组数)大于泛化关系阈值,这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值(一般为10到30)
这两个技术可以串行使用,即首先应用属性阈值控制来泛化每个属性;然后再应用泛化关系阈值控制来进一步减少泛化关系的(规模)大小。
属性构造
根据已有属性集构造新的属性,以帮助数据挖掘过程。
构造属性:变动状态。
属性相关分析
确定了目标变量后,需要进行关联度分析,删除那些与目标变量变动状态无关的变量。最终确定可用于数据挖掘的属性。
决策树的构建
选择具有最高信息增益的属性作为当前节点的判断属性。
规则提取与知识发现
数据挖掘的最终目标是知识发现,因此需要对上面的决策树进行规则提取,清晰地表达出新的知识。将决策树转换成相应的决策表。并且可以进一步优化。
结论
根据优化后的决策表得到结论。
2017-10-14