Weka Knowledge Flow(知识流界面) 详解

zoukankan html css js c++ java

Weka Knowledge Flow(知识流界面) 详解

在探索者界面详解的系列中我们提到，探索者界面简单易用但有一个缺点：它将样本数据全部加载到内存中，所以样本的大小受限于内存的大小。而本篇介绍的知识流界面正好弥补了这一缺陷。

知识流界面的主体是一个设计画布。用户从工具条中选择 Weka 组件，并将其置于设计画布上，连接成一个处理和分析数据的具有方向性的流程图。比如用户可以先使用属性选择组件找出样本中重要的属性，然后再使用分类器，基于重要的属性进行挖掘。

知识流界面共有标签8个：

DataSources：选择数据源

DataSinks：保存结果，注意在linux下一定要保存在当前用户有权写的目录中

Filters：过滤器选择

Classifiers：分类器选择

Clusterers：聚类器选择

Associations：关联规则算法选择

Evaluation：评估器

Visualization：用于将结果可视化的组件选择

一般操作知识流界面的顺序是：

选择一个数据源组件，置于画板上。

再到评估器标签中找到 ClassAssigner ，这个评估器用于指明样本中决定分类的属性，将其置于画板上。

然后右键数据源组件来连接数据源组件和ClassAssigner组件，连接方式有两种：dataset 和 instance（只能选一种）。dataset指批量传递数据，而 instance 一个一个地传递实例，用于像贝叶斯网络这样增量更新的分类器。

然后继续在评估器标签中找到训练集和测试集的分配方案，比如 CrossValidationFoldMaker组件（交叉验证）。

接着就可以到分类器选择标签中找相应算法的分类器组件。

最后在可视化标签中找到可以显示结果的组件（有文本式的，树状的，显示ROC曲线的，矩阵式的）

确保连接好所有的组件，最后右键数据源组件，选择 Start Loading，开始挖掘。

所有的组件都可以通过右键选择 Configure 来配置参数。

最后上两张截图：

这是一个对样本属性进行离散化过滤后再分类的方案：

这是部分组件的说明：

查看全文

相关阅读:
052-233(新增70题2018)
052-232(新增70题2018)
052-231(新增70题2018)
052-230(新增70题2018)
052-229(新增70题2018)
052-228(新增70题2018)
052-227(新增70题2018)
052-226(新增70题2018)
052-225(新增70题2018)
进制之间的那点事（二进制、八进制、十进制、十六进制）

原文地址：https://www.cnblogs.com/rav009/p/5131124.html