数据挖掘学习02 使用weka的kmeans聚类分析

zoukankan html css js c++ java

数据挖掘学习02 使用weka的kmeans聚类分析
本文目的

weka是一套使用java开发的数据挖掘工具集合，提供GUI/CLI界面和Java API使用方式。所以，在学习和解决数据挖掘问题时，可以先尝试用weka的GUI或CLI做出合适的分析，找到适当的算法，然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题，kmeans是一种常见的聚类算法，这里先拿此算法和示例数据做一些实验，以便熟悉weka的界面操作。

什么是kmeans

详细的描述，参见这里。通俗的解释，就是将K个点，称为中心点（K需要预先给出），随机的放到数据集中，然后针对数据集中的每个点计算与这K个中心点的距离，找到每个点最近的中心点。然后更新这K个中心点，使每个中心点是最近的点的平均中心点。如此循环，直到这K个点的位置不能再移动，得到K个聚类。

数据集

weka定义了自己的数据集文件格式，以.arrf结尾，整体感觉就是一张表格，主要分为四个部分（如下图）：
1. 注释，comment
2. 数据集名称，relation
3. 属性，attribute，相当于列
4. 数据，每行是一个实例，每一行中的每个字段用逗号隔开，字符串在引号中间，也可以是数字或枚举
获取并安装weka

到官网上获取weka，如果本机有jre，那么直接下载weka安装包，如果没有jre，又不想手动安装java，可以安装带有jre的weka，后者会比前者大。

获取后，直接双击，然后一步步OK，就行，最后会在桌面上生成小图标

执行Kmeans聚类操作

双击小图标，弹出如下对话框，

选择“Explorer”，如果以后高级用户，可以选择最后的“Simple CLI”，直接命令行操作。

弹出如下对话框

这里，需要实验数据集，点击这里下载，然后点击“open file …”，导入刚刚下载的数据集，出现如下界面，说明导入OK。

现在，选取最上面的第三个tab“Cluster”,进入聚类分析主界面

点击“Choose”按钮，选择聚类算法。这里先选择了SimpleKMeans，单机“Choose”旁边的输入框，可以设置算法参数

这里需要将”numClusters”修改为一个合适的值，其他保留默认即可。

记下来，点击开始，weka就开会帮你算出结果，结果会以文件的方式存储在Result List中，方便后面分析。右边是计算结果。

结果可视化

Explorer主界面最上面最后一个tab是数据结果可视化，目前只能支持2纬可视化，所以个人觉得比较鸡肋，因为一般数据纬度都为大于2纬。

具体如何使用可视化，可以参见最后的链接。

以上就是利用weka进行kmeans聚类操作的过程。

参考资料

http://maya.cs.depaul.edu/classes/ect584/weka/k-means.html
声明：如有转载本博文章，请注明出处。您的支持是我的动力！文章部分内容来自互联网，本人不负任何法律责任。
查看全文

相关阅读:
揭开webRTC媒体服务器的神秘面纱——WebRTC媒体服务器&开源项目介绍
 打造一个上传图片到图床利器的插件（Mac版开源）
游戏编程十年总结（下）
游戏编程十年总结（上）
使用“Cocos引擎”创建的cpp工程如何在VS中调试Cocos2d-x源码
 手机网游实时同步方案
 Unity AssetBundle爬坑手记
 Unity3D新手引导开发手记
 敏捷开发随笔（一）高效软件开发之道
 U3D DrawCall优化手记

原文地址：https://www.cnblogs.com/bourneli/p/2725019.html