1、为什么要用spark
分布式、集群计算快
2、为什么不用mahout
社区开发进度慢,与spark发展脱轨
3、为什么要用scikit learn
资料齐全,接口易用
4、spark ml的算法不满足实际需求怎么办
①直接扩展ml的算法,优势是继续可以利用spark的分布式优势,底层优化的优势,就是比较困难
②扩展scikit learn,通过pyspark将扩展的算法引入spark,容易实现,可能不能发挥spark的优点
③不使用常用的算法,使用硬编码