zoukankan      html  css  js  c++  java
  • Spark MLlib使用有感

      这些天在公司里面做文本分析的任务,我跟着玻哥一起做,先研究了算法的可行度,最后决定使用Google的Word2Vector和LDA算法来对文本进行分析。之前因为看过一些Spark的东西,所以准备瞄准MLlib,直接使用其机器学习库来进行算法的测试。

      但是发现一个非常重大的问题——因为Spark默认是将RDD持久到内存中进行计算的,但是当我们加大数据量的时候,由于本集群的内存不是很够,导致每次在进行迭代的时候都出现heap溢出。我追踪了Spark给出的这两个算法的源码,发现是其算法内部给出的每次迭代的结果都以RDD持久在了内存中,导致溢出。

      由于本人对于scala语言不是很熟悉,所以将此问题提交至github的spark相关核心成员,但是目前还没给出相应的答复。

      得出一个结论,虽然现在的Spark如火如荼,但是其MLlib库在文本分析方面还是非常的鸡肋,暂时不是大数据文本分析的好的选择。

  • 相关阅读:
    C#后台解析XML字符串并获取节点值
    table动态添加tr
    时间段检索时间段
    什么是数据结构
    PERSONAL VALUES
    C#接口
    基于ArcEngine与C#的鹰眼地图实现
    ENVI/IDL与ArcGIS集成开发的三种途径
    中国地图投影(实现Lambert投影)
    Git 的下载
  • 原文地址:https://www.cnblogs.com/cstzhou/p/4724897.html
Copyright © 2011-2022 走看看