zoukankan html css js c++ java

Weka回归

第一个数据挖掘技术：回归

例子：给房子定价

房子的价格（因变量）是很多自变量 — 房子的面积、占地的大小、厨房是否有花岗石以及卫生间是否刚重装过等的结果。所以，不管是购买过一个房子还是销售过一个房子，您都可能会创建一个回归模型来为房子定价。这个模型建立在邻近地区内的其他有可比性的房子的售价的基础上（模型），然后再把您自己房子的值放入此模型来产生一个预期价格。

让我们继续以这个房屋定价的回归模型为例，创建一些真实的数据。在我的邻近地区有一些房子出售，我试图找到我自己房子的合理价格。我还需要拿此模型的输出申报财产税。

表 1. 回归模型的房屋值

房子面积（平方英尺）	占地的大小	卧室	花岗岩	卫生间有无重装？	销售价格
3529	9191	6	0	0	$205,000
3247	10061	5	1	1	$224,900
4032	10150	5	0	1	$197,900
2397	14156	4	1	0	$189,900
2200	9600	4	0	1`	$195,000
3536	19994	6	1	1	$325,000
2983	9365	5	0	1	$230,000

3198	9669	5	1	1	????

为 WEKA 构建数据集

为了将数据加载到 WEKA，我们必须将数据放入一个我们能够理解的格式。WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF)，您可以在其中定义所加载数据的类型，然后再提供数据本身。在这个文件内，我们定义了每列以及每列所含内容。对于回归模型，只能有 NUMERIC 或 DATE 列。最后，以逗号分割的格式提供每行数据。我们为 WEKA 使用的 ARFF 文件如下所示。请注意在数据行内，并未包含我的房子。因为我们在创建模型，我房子的价格还不知道，所以我们还不能输入我的房子。

清单 1. WEKA 文件格式

@RELATION house

@ATTRIBUTE houseSize NUMERIC
@ATTRIBUTE lotSize NUMERIC
@ATTRIBUTE bedrooms NUMERIC
@ATTRIBUTE granite NUMERIC
@ATTRIBUTE bathroom NUMERIC
@ATTRIBUTE sellingPrice NUMERIC

@DATA
3529,9191,6,0,0,205000 
3247,10061,5,1,1,224900 
4032,10150,5,0,1,197900 
2397,14156,4,1,0,189900 
2200,9600,4,0,1,195000 
3536,19994,6,1,1,325000 
2983,9365,5,0,1,230000

将数据载入 WEKA

数据创建完成后，就可以开始创建我们的回归模型了。启动 WEKA，然后选择 Explorer。将会出现 Explorer 屏幕，其中 Preprocess 选项卡被选中。选择 Open File 按钮并选择在上一节中创建的 ARFF 文件。在选择了文件后，WEKA Explorer 应该类似于图 3 中所示的这个屏幕快照。

图 3. 房屋数据加载后的 WEKA

这个屏幕快照显示了数据加载后的 WEKA Explorer

在这个视图中，WEKA 允许您查阅正在处理的数据。在 Explorer 窗口的左边，给出了您数据的所有列（Attributes）以及所提供的数据行的数量（Instances）。若选择一列，Explorer 窗口的右侧就会显示数据集内该列数据的信息。比如，通过选择左侧的 houseSize 列（它应该默认选中），屏幕右侧就会变成显示有关该列的统计信息。它显示了数据集内此列的最大值为 4,032 平方英尺，最小值为 2,200 平方英尺。平均大小为 3,131 平方英尺，标准偏差为 655 平方英尺（标准偏差是一个描述差异的统计量度）。此外，还有一种可视的手段来查看数据，单击Visualize All 按钮即可。由于在这个数据集内的行数有限，因此可视化的功能显得没有有更多数据点（比如，有数百个）时那么功能强大。

好了，对数据的介绍已经够多了。让我们立即创建一个模型来获得我房子的价格。

用 WEKA 创建一个回归模型

为了创建这个模型，单击 Classify 选项卡。第一个步骤是选择我们想要创建的这个模型，以便 WEKA 知道该如何处理数据以及如何创建一个适当的模型：

单击 Choose 按钮，然后扩展 functions 分支。
选择 LinearRegression 叶。

这会告诉 WEKA 我们想要构建一个回归模型。除此之外，还有很多其他的选择，这说明可以创建的的模型有很多。非常多！这也从另一个方面说明本文只介绍了这个主题的皮毛。有一点值得注意。在同一个分支还有另外一个选项，称为 SimpleLinearRegression 。请不要选择该选项，因为简单回归只能有一个变量，而我们有六个变量。选择了正确的模型后，WEKA Explorer 应该类似于图 4。

图 4. WEKA 内的线性回归模型

这个屏幕快照显示了 WEKA 的线性回归模型内的数据集

我能用电子数据表达到同样的目的么？

简单而言：不可以。深思熟虑后的答案是：可以。大多数流行的电子数据表程序都不能轻松完成我们用 WEKA 实现的功能，即定义一个具有多个自变量的线性模型。不过，您可以十分容易地实现一个 Simple Linear Regression 模型（具有一个自变量）。如果您有足够的勇气，甚至可以进行一个多变量的回归，但是这将非常困难，绝对不如用 WEKA 来得简单。本文的参考资料部分有一个 Microsoft® Excel® 的示例视频。

现在，选择了想要的模型后，我们必须告诉 WEKA 它创建这个模型应该使用的数据在哪里。虽然很显然我们想要使用在 ARFF 文件内提供的那些数据，但实际上有不同的选项可供选择，有些甚至远比我们将要使用的选项高级。其他的三个选择是：Supplied test set 允许提供一个不同的数据集来构建模型； Cross-validation 让 WEKA 基于所提供的数据的子集构建一个模型，然后求出它们的平均值来创建最终的模型；Percentage split WEKA 取所提供数据的百分之一来构建一个最终的模型。这些不同的选择对于不同的模型非常有用，我们在本系列后续文章中会看到这一点。对于回归，我们可以简单地选择 Use training set。这会告诉 WEKA 为了构建我们想要的模型，可以使用我们在 ARFF 文件中提供的那些数据。

创建模型的最后一个步骤是选择因变量（即我们想要预测的列）。在本例中指的就是房屋的销售价格，因为那正是我们想要的。在这些测试选项的正下方，有一个组合框，可用它来选择这个因变量。列 sellingPrice 应该默认选中。如果没有，请选择它。

我们准备好创建模型后，单击 Start。图 5 显示了输出结果。

图 5. WEKA 内的房屋价格回归模型

这个屏幕快照显示了来自 WEKA 的线性回归模型的总结报告

查看全文

相关阅读:
Ext.form.TextField组件
 provider: SQL Network Interfaces, error: 26 Error Locating Server/Instance Specified解决办法
 SQL Server访问远程数据库和Linked Server
C#程序实现动态调用DLL的研究
 把DLL文件打包进EXE的技巧
 C#读取媒体信息
 C# 集合类
 Server Application Unavailable 【Failed to execute request because the AppDomain could not be created.】的解决办法
 比较全的字符串验证类
 如何用VS2005制作Web安装程序

原文地址：https://www.cnblogs.com/samjustin/p/4571058.html