zoukankan      html  css  js  c++  java
  • 热词分析学习进度(四)

    信息技术手册查重错误比对分析

       昨天进行了对word文档错误的修改接下来可以进行导入数据库的操作。

        参考博文https://blog.csdn.net/coding01/article/details/81512430

       导入数据库主要又是三种方法:  

    一:

    1. 直接读取数据,保存成一个String类型的RDD
    2. 将此RDD中每一行中的不定数量的空格用正则表达式匹配选出后替换成“,”
    3. 将处理过后的RDD保存到一个临时目录中
    4. 以CSV方式读取此临时目录中的数据,便可将读到的数据直接存成一个多列的DataFrame
    5. 最后将此DataFrame的数据类型转为Double
    二:

    读取原始文件,用正则表达式分割每个样本点的属性值,保存成Array[String]类型的RDD
    利用Spark ML库中的LabeledPoint类将数据转换成LabeledPoint类型的RDD。
    LabeledPoint类型包含label列和features列,label列即标签列,是Double类型的,因为本次数据未经训练还没有标签,所以可随意给定一个数字;features列即特征向量列,是向量类型的,本次数据均为特征点,所以用Vectors类全部转换为向量类型。
    将LabeledPoint类型的RDD转换为DataFrame并只选择其features列,得到一个新的DataFrame,然后就可以在此df上进行一些机器学习算法(如:KMeans)了。

  • 相关阅读:
    组合数问题
    [Repost] 悬线法
    图论 List
    杂项 List
    动态规划 List
    Binary Search
    树状数组,Fenwick Tree
    HDU1086判断线段相交
    高效大数模板
    HDUOJ2298三分加二分
  • 原文地址:https://www.cnblogs.com/877612838zzx/p/10599421.html
Copyright © 2011-2022 走看看