大数据处理流程
大数据处理,大数据需要怎样处理, 处理的方式方法或者函数有哪些
## 大数据的处理流程
采集--导入(预处理) ==>> 统计分析 ==>> 挖掘
数据采集
渠道: 通过Web , App , 传感器等方式.
方式: 通过客户端或者直接调取相关事务的数据
难点: 处理并发.
数据导入:
获取数据之后,进行初步清洗保存到SQL 或者 NoSQL中
方式: 获得想要得到多的数据之后导入到进行分析的分布式数据库库,SQL或者NoSQL
难点: 写入速率.
统计分析:
利用分布式数据库,或分布式计算集群,对数据进行分析或分类汇总.
方式: 根据具体分析方向, 采用合适的模块或函数.
难点: 处理I/O
数据挖掘:
根据现有的数据进行给予各种算法的计算, 从而起到预测的效果,.
方式: 聚类的Kmeans, 统计学习SVM, 分类NaiveBayes.
常用工具Hadoop的Mahout等.
难点: 算法的处理和计算量的分配.