zoukankan      html  css  js  c++  java
  • Spark 机器学习库 MLlib 编程实践

    一、实验目的
    (1)通过实验掌握基本的 MLLib 编程方法;
    (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和预测等。
    二、实验平台
    操作系统:Ubuntu16.04
    JDK 版本:1.7 或以上版本
    Spark 版本:2.1.0
    数据集:下载 Adult 数据集(http://archive.ics.uci.edu/ml/datasets/Adult),该数据集也可以直接到本教程官网的“下载专区”的“数据集”中下载。数据从美国 1994 年人口普查数据库抽取而来,可用来预测居民收入是否超过 50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄、工种、学历、职业、人种等重要信息,值得一提的是,14 个属性变量中有 7 个类别型变量。
    三、实验内容和要求
    1.数据导入
        从文件中导入数据,并转化为 DataFrame。
    2.进行主成分分析(PCA)
        对 6 个连续型的数值型变量进行主成分分析。PCA(主成分分析)是通过正交变换把一组相关变量的观测值转化成一组线性无关的变量值,即主成分的一种方法。PCA 通过使用主成分把特征向量投影到低维空间,实现对特征向量的降维。请通过 setK()方法将主成分数量设置为 3,把连续型的特征向量转化成一个 3 维的主成分。
    3.训练分类模型并预测居民收入在主成分分析的基础上,采用逻辑斯蒂回归,或者决策树模型预测居民收入是否超过50K;对 Test 数据集进行验证。
    4.超参数调优
        利用 CrossValidator 确定最优的参数,包括最优主成分 PCA 的维数、分类器自身的参数等。
  • 相关阅读:
    从SQL注入谈数据访问层
    Combobox下拉框两级联动
    C#IO流文件操作
    网络电视精灵思路分析
    简单工厂和单例设计模式浅解
    可扩展标记语言
    深入理解多态
    未将对象引用到实例
    Python 项目实践二(生成数据)第一篇
    Python 项目实践一(外星人入侵小游戏)第五篇
  • 原文地址:https://www.cnblogs.com/xjmm/p/14356713.html
Copyright © 2011-2022 走看看