zoukankan      html  css  js  c++  java
  • Weka回归

    第一个数据挖掘技术:回归

    例子:给房子定价

    房子的价格(因变量)是很多自变量 — 房子的面积、占地的大小、厨房是否有花岗石以及卫生间是否刚重装过等的结果。所以,不管是购买过一个房子还是销售过一个房子,您都可能会创建一个回归模型来为房子定价。这个模型建立在邻近地区内的其他有可比性的房子的售价的基础上(模型),然后再把您自己房子的值放入此模型来产生一个预期价格。

    让我们继续以这个房屋定价的回归模型为例,创建一些真实的数据。在我的邻近地区有一些房子出售,我试图找到我自己房子的合理价格。我还需要拿此模型的输出申报财产税。

    表 1. 回归模型的房屋值
    房子面积(平方英尺)占地的大小卧室花岗岩卫生间有无重装?销售价格
    3529 9191 6 0 0 $205,000
    3247 10061 5 1 1 $224,900
    4032 10150 5 0 1 $197,900
    2397 14156 4 1 0 $189,900
    2200 9600 4 0 1` $195,000
    3536 19994 6 1 1 $325,000
    2983 9365 5 0 1 $230,000
               
    3198 9669 5 1 1 ????

    为 WEKA 构建数据集

    为了将数据加载到 WEKA,我们必须将数据放入一个我们能够理解的格式。WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF),您可以在其中定义所加载数据的类型,然后再提供数据本身。在这个文件内,我们定义了每列以及每列所含内容。对于回归模型,只能有 NUMERIC 或 DATE 列。最后,以逗号分割的格式提供每行数据。我们为 WEKA 使用的 ARFF 文件如下所示。请注意在数据行内,并未包含我的房子。因为我们在创建模型,我房子的价格还不知道,所以我们还不能输入我的房子。

    清单 1. WEKA 文件格式
    @RELATION house
    
    @ATTRIBUTE houseSize NUMERIC
    @ATTRIBUTE lotSize NUMERIC
    @ATTRIBUTE bedrooms NUMERIC
    @ATTRIBUTE granite NUMERIC
    @ATTRIBUTE bathroom NUMERIC
    @ATTRIBUTE sellingPrice NUMERIC
    
    @DATA
    3529,9191,6,0,0,205000 
    3247,10061,5,1,1,224900 
    4032,10150,5,0,1,197900 
    2397,14156,4,1,0,189900 
    2200,9600,4,0,1,195000 
    3536,19994,6,1,1,325000 
    2983,9365,5,0,1,230000

    将数据载入 WEKA

    数据创建完成后,就可以开始创建我们的回归模型了。启动 WEKA,然后选择 Explorer。将会出现 Explorer 屏幕,其中 Preprocess 选项卡被选中。选择 Open File 按钮并选择在上一节中创建的 ARFF 文件。在选择了文件后,WEKA Explorer 应该类似于图 3 中所示的这个屏幕快照。

    图 3. 房屋数据加载后的 WEKA

    这个屏幕快照显示了数据加载后的 WEKA Explorer

    在这个视图中,WEKA 允许您查阅正在处理的数据。在 Explorer 窗口的左边,给出了您数据的所有列(Attributes)以及所提供的数据行的数量(Instances)。若选择一列,Explorer 窗口的右侧就会显示数据集内该列数据的信息。比如,通过选择左侧的 houseSize 列(它应该默认选中),屏幕右侧就会变成显示有关该列的统计信息。它显示了数据集内此列的最大值为 4,032 平方英尺,最小值为 2,200 平方英尺。平均大小为 3,131 平方英尺,标准偏差为 655 平方英尺(标准偏差是一个描述差异的统计量度)。此外,还有一种可视的手段来查看数据,单击Visualize All 按钮即可。由于在这个数据集内的行数有限,因此可视化的功能显得没有有更多数据点(比如,有数百个)时那么功能强大。

    好了,对数据的介绍已经够多了。让我们立即创建一个模型来获得我房子的价格。

    用 WEKA 创建一个回归模型

    为了创建这个模型,单击 Classify 选项卡。第一个步骤是选择我们想要创建的这个模型,以便 WEKA 知道该如何处理数据以及如何创建一个适当的模型:

    1. 单击 Choose 按钮,然后扩展 functions 分支。
    2. 选择 LinearRegression 叶。

    这会告诉 WEKA 我们想要构建一个回归模型。除此之外,还有很多其他的选择,这说明可以创建的的模型有很多。非常多!这也从另一个方面说明本文只介绍了这个主题的皮毛。有一点值得注意。在同一个分支还有另外一个选项,称为 SimpleLinearRegression 。请不要选择该选项,因为简单回归只能有一个变量,而我们有六个变量。选择了正确的模型后,WEKA Explorer 应该类似于图 4。

    图 4. WEKA 内的线性回归模型

    这个屏幕快照显示了 WEKA 的线性回归模型内的数据集

    我能用电子数据表达到同样的目的么?

    简单而言:不可以。深思熟虑后的答案是:可以。大多数流行的电子数据表程序都不能轻松完成我们用 WEKA 实现的功能,即定义一个具有多个自变量的线性模型。不过,您可以 十分容易地实现一个 Simple Linear Regression 模型(具有一个自变量)。如果您有足够的勇气,甚至可以进行一个多变量的回归,但是这将非常困难,绝对不如用 WEKA 来得简单。 本文的 参考资料 部分有一个 Microsoft® Excel® 的示例视频。

    现在,选择了想要的模型后,我们必须告诉 WEKA 它创建这个模型应该使用的数据在哪里。虽然很显然我们想要使用在 ARFF 文件内提供的那些数据,但实际上有不同的选项可供选择,有些甚至远比我们将要使用的选项高级。其他的三个选择是:Supplied test set 允许提供一个不同的数据集来构建模型; Cross-validation 让 WEKA 基于所提供的数据的子集构建一个模型,然后求出它们的平均值来创建最终的模型;Percentage split WEKA 取所提供数据的百分之一来构建一个最终的模型。这些不同的选择对于不同的模型非常有用,我们在本系列后续文章中会看到这一点。对于回归,我们可以简单地选择 Use training set。这会告诉 WEKA 为了构建我们想要的模型,可以使用我们在 ARFF 文件中提供的那些数据。

    创建模型的最后一个步骤是选择因变量(即我们想要预测的列)。在本例中指的就是房屋的销售价格,因为那正是我们想要的。在这些测试选项的正下方,有一个组合框,可用它来选择这个因变量。列 sellingPrice 应该默认选中。如果没有,请选择它。

    我们准备好创建模型后,单击 Start。图 5 显示了输出结果。

    图 5. WEKA 内的房屋价格回归模型

    这个屏幕快照显示了来自 WEKA 的线性回归模型的总结报告




  • 相关阅读:
    LeetCode 811. Subdomain Visit Count (子域名访问计数)
    LeetCode 884. Uncommon Words from Two Sentences (两句话中的不常见单词)
    LeetCode 939. Minimum Area Rectangle (最小面积矩形)
    LeetCode 781. Rabbits in Forest (森林中的兔子)
    LeetCode 739. Daily Temperatures (每日温度)
    三种方式实现按钮的点击事件
    239. Sliding Window Maximum
    14.TCP的坚持定时器和保活定时器
    13.TCP的超时与重传
    12.TCP的成块数据流
  • 原文地址:https://www.cnblogs.com/samjustin/p/4571058.html
Copyright © 2011-2022 走看看