打开Weka后在弹出的Weka GUI Chooser 中点击 Explorer,进入探索者界面。探索者界面是Weka最简单的使用界面。所有的Weka功能都能在这个界面中通过点击鼠标和表单填写来使用。由于很多选项都预设了常用的默认值,使用户以最小的代价取得结果。不过该界面也有缺点:它会把样本数据全部读入内存,所以分析的样本数据量不能太大。
在探索者界面有6个标签,我们一个一个说:
预处理标签 Preprocess
预处理标签主要提供三个功能:样本数据的读入,样本过滤和样本的预览。
weka支持三种读入数据的方式:arff格式、csv格式还有文本格式。arff格式的支持最好,所以建议把其他两种格式都转成arff格式再读入,转换时要注意文件的编码,最好是utf8。转换语句:
java weka.core.converters.CSVLoader filename.csv > filename.arff java weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff注意在文本转换的时候文件夹的名字表示类别,详见http://blog.csdn.net/chl033/article/details/4837232。
此外Weka还支持通过URL和数据库来读取样本,这里先按下不表。
预处理标签还有一个Filter功能来对样本的属性进行转换,对样本的实例进行操作。比如样本中有一个属性叫年龄为数值类型(1-150),可以用Discretize 过滤器进行离散,得到一个名词型的属性年龄段{少年,青年,中年,老年}。再比如实例过滤器中的NonSparseToSparse过滤器可以把样本实例转换成稀疏模式(购物篮分析中常用)。高端玩家还能自己编写过滤器。详见http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html 。
样本数据的概览以直观的图表展现了样本数据的类别和数量,不多说了。
分类器标签 Classify
Weka把大部分监督学习的算法都放在该标签中,包括了分类算法和回归算法。具体算法的选择在标签页最上面的下拉框中。
对于这个标签页我们着重讲讲 Test options。
监督学习的算法是指在已知样本类别的情况下生成分类器,然后用测试数据集调整分类器,提高准确度。在Test options(验证选项)中可以选择使用什么样的测试集。Use Training set 表示直接使用训练集做测试集。Supply test set表示使用另一个文件来做测试集。最下面还有一个Percentage Split 表示把训练集按百分比分割,一部分成为训练集一部分留作测试集。那么剩下的 cross validation(交叉验证)
是什么意思呢?
交叉验证带有一个参数选择,默认为10,俗称十折交叉验证。对于一个数据样本,它先把数据随机地分割成10份。然后将1份数据集当做测试集,9份数据当做样本集,进行学习。再选另一份数据集作测试集,其余的数据做样本集,依次类推,共进行10次。确保每次测试集都不同。最后将10个误差率估计值平均而得出一个综合误差估计。
聚类标签 Cluster
聚类标签页的设计跟分类标签页类似,但在验证选项中没有交叉验证,取而代之的是 Class to clusters evaluation 选项。它表示根据样本集中的某个属性来分类,并以之为依据校验聚类结果,在聚类时会自动忽略这个设定的属性。