zoukankan      html  css  js  c++  java
  • Mahout学习之Mahout简介、安装、配置、入门程序测试

      提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

         Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和 处理性能。

    二、Mahout安装、配置

    1、下载Mahout

    http://archive.apache.org/dist/mahout/

    2、解压
    tar -zxvf mahout-distribution-0.9.tar.gz

    三、配置环境变量
    1、配置Mahout环境变量
    # set mahout environment
    export MAHOUT_HOME=/home/yujianxin/mahout/mahout-distribution-0.9
    export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
    export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
    2、配置Mahout所需的Hadoop环境变量
     # set hadoop environment
    export HADOOP_HOME=/home/yujianxin/hadoop/hadoop-1.1.2
    export HADOOP_CONF_DIR=$HADOOP_HOME/conf
    export PATH=$PATH:$HADOOP_HOME/bin
    export HADOOP_HOME_WARN_SUPPRESS=not_null

    四、验证Mahout是否安装成功

            执行命令mahout。若列出一些算法,则成功

    五、使用Mahout 之入门级使用
    5.1、启动Hadoop
    5.2、下载测试数据
               http://archive.ics.uci.edu/ml/databases/synthetic_control/链接中的synthetic_control.data
    5.3、上传测试数据
    hadoop fs -put synthetic_control.data /user/root/testdata
    5.4  使用Mahout中的kmeans聚类算法,执行命令:
    mahout -core  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
    花费9分钟左右完成聚类 。
    5.5 查看聚类结果

        执行hadoop fs -ls /user/root/output,查看聚类结果。

    内容来自:http://itindex.net/detail/49323-mahout-%E5%AD%A6%E4%B9%A0-mahout

  • 相关阅读:
    CF #305(Div.2) D. Mike and Feet(数学推导)
    CF #305 (Div. 2) C. Mike and Frog(扩展欧几里得&&当然暴力is also no problem)
    2015百度之星资格赛.1004放盘子(数学推导)
    poj.1988.Cube Stacking(并查集)
    lightoj.1048.Conquering Keokradong(二分 + 贪心)
    CMD 命令汇总
    PLSQL 安装与配置 Oracle
    用 jQuery 实现简单倒计时功能
    C# 从服务器下载文件并保存到客户端
    用 NPOI 组件实现数据导出
  • 原文地址:https://www.cnblogs.com/Mandylover/p/5229776.html
Copyright © 2011-2022 走看看