zoukankan      html  css  js  c++  java
  • 热词分析学习进度(四)

    信息技术手册查重错误比对分析

       昨天进行了对word文档错误的修改接下来可以进行导入数据库的操作。

        参考博文https://blog.csdn.net/coding01/article/details/81512430

       导入数据库主要又是三种方法:  

    一:

    1. 直接读取数据,保存成一个String类型的RDD
    2. 将此RDD中每一行中的不定数量的空格用正则表达式匹配选出后替换成“,”
    3. 将处理过后的RDD保存到一个临时目录中
    4. 以CSV方式读取此临时目录中的数据,便可将读到的数据直接存成一个多列的DataFrame
    5. 最后将此DataFrame的数据类型转为Double
    二:

    读取原始文件,用正则表达式分割每个样本点的属性值,保存成Array[String]类型的RDD
    利用Spark ML库中的LabeledPoint类将数据转换成LabeledPoint类型的RDD。
    LabeledPoint类型包含label列和features列,label列即标签列,是Double类型的,因为本次数据未经训练还没有标签,所以可随意给定一个数字;features列即特征向量列,是向量类型的,本次数据均为特征点,所以用Vectors类全部转换为向量类型。
    将LabeledPoint类型的RDD转换为DataFrame并只选择其features列,得到一个新的DataFrame,然后就可以在此df上进行一些机器学习算法(如:KMeans)了。

  • 相关阅读:
    Go
    Go
    Go
    Go
    Go
    Go
    爬虫常用相关库
    Go
    python基础第7天(day19)
    python基础第五天(day17)元组,集合,字符串操作 字符编码:
  • 原文地址:https://www.cnblogs.com/877612838zzx/p/10599421.html
Copyright © 2011-2022 走看看