Spark MLlib使用有感 - 走看看

zoukankan html css js c++ java

Spark MLlib使用有感

　　这些天在公司里面做文本分析的任务，我跟着玻哥一起做，先研究了算法的可行度，最后决定使用Google的Word2Vector和LDA算法来对文本进行分析。之前因为看过一些Spark的东西，所以准备瞄准MLlib，直接使用其机器学习库来进行算法的测试。

　　但是发现一个非常重大的问题——因为Spark默认是将RDD持久到内存中进行计算的，但是当我们加大数据量的时候，由于本集群的内存不是很够，导致每次在进行迭代的时候都出现heap溢出。我追踪了Spark给出的这两个算法的源码，发现是其算法内部给出的每次迭代的结果都以RDD持久在了内存中，导致溢出。

　　由于本人对于scala语言不是很熟悉，所以将此问题提交至github的spark相关核心成员，但是目前还没给出相应的答复。

　　得出一个结论，虽然现在的Spark如火如荼，但是其MLlib库在文本分析方面还是非常的鸡肋，暂时不是大数据文本分析的好的选择。

查看全文

相关阅读:
Swift try try! try?使用和区别
 Sitemesh 3 配置和使用(最新)
idea + mybatis generator + maven 插件使用
 （五）Hololens Unity 开发之手势识别
 （四）Hololens Unity 开发之凝视系统
 （二）Hololens Unity 开发入门之 Hello HoloLens~
（三）Hololens Unity 开发之语音识别
 （一）Hololens Unity 开发环境搭建(Mac BOOTCAMP WIN10)
iOS多线程技术方案
 基于OpenSSL的RSA加密应用(非算法)

原文地址：https://www.cnblogs.com/cstzhou/p/4724897.html

Copyright © 2011-2022 走看看