zoukankan      html  css  js  c++  java
  • mahout 随机森林RF算法

    在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性

    能解决分类与回归问题,并且都有很好的估计表现

    1.生成数据说明文件

    mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生成数据的说明文件)

    2.训练模型

    mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森林模型结果)

    3.测试

    Mahout testforest  -i input.csv -ds input.info -m forest_result -a -o predictions

     -a 运行后在命令行界面可以看到分析结果,包括准确率等信息

    -d:数据路径

    -ds:数据集

    -sl:选取每个子节点应该具备的训练变量个数,对于regresstion问题默认为全部变量的三分之一

    -nc:可选的,树不互补

    -ms:可选的,如果分支数据大小小于此值(默认为2),则树不分离。

    -mp:可选的,如果分支数据的方差的比例小于这个值,则树不分离。(In the case of a regression problem, this value is used. The default

    is 1/1000(0.001).)

    -sd:可选的,种子值,用来初始化随机数发生器。

    -p:使用部分数据实现

    -t:设置共多少棵树

    -o:输出路径,包含决策森林模型

  • 相关阅读:
    STP生成树协议
    Fiddler快速入门(还有一个功能就是不经过网络,直接模拟一个响应返回给客户端)
    Qt宏Q_OBJECT展开记录
    rem_taobaofix.js
    yield return
    NET full stack framework
    API 网关
    Redis主从高可用缓存
    数据异构解决方案缓存一致性和跨服务器查询
    NET Core 防止跨站请求
  • 原文地址:https://www.cnblogs.com/energy1010/p/6926140.html
Copyright © 2011-2022 走看看