大数据乱入 - 走看看

zoukankan html css js c++ java

大数据乱入
　　　　以前谈及大数据，总会第一想到的是Hadoop，分布式，然后没了。而真正接触大数据的时候，发现这是一个很大的体系，大数据只是个概念，而真正的核心在于数据的操作上，从数据的收集，处理，存储，计算上来发现数据中潜藏的价值。

　　大数据，机器学习，深度学习，人工智能，这几个比较火热的话题，其实中间存在着千丝万缕的联系。机器学习，深度学习，都是服务于机器智能化，为人工智能提供了可能，同时也为发现数据的潜在价值提供了思路。
- 　　个人理解的粗略的大数据处理流程：
　　　　　　　　　　　　

　　在我看来大数据的整个处理过程所为的目标不过是提供解决方案，当然，又到了先有鸡还是先有蛋的问题，有问题才有解决方案。大数据的终极目标是挖掘数据的潜在价值，所以说目前的大数据处理大部分还是在解决问题的层面上，真正没有根源的去从数据的各个维度去挖掘他的关系，发掘具有独特价值的部分，并没有成为当下大数据发展的主流。
- 　　数据收集系统：　　
  
  　　平台化积累数据：
  
  　　海量数据积累需要一个循序渐进的过程，没有一个好的平台是不可能完成，像国内的型电商平台（淘宝，京东。。）拥有海量的用户消费数据。腾讯平台拥有海量的用户娱乐数据。百度则拥有用户的搜索数据。链家网则拥有用户的购房数据。。。
  
  　　大规模数据抓取：
  
  　　没有平台化的数据积累，只有选择网络爬虫构建数据抓取系统，从互联网上抓取所需要的数据
- 　　数据存储系统：
- 　　数据分析系统：数据的分析也是大数据的核心，
  
  　　数据预处理
  
  　　数据建模
  
  　　数据计算
  
  　　数据分析
　　　　　　　针对不同的问题，建立所需的模型，模型的好坏直接决定着解决方案的效果。建模的过程说白了就是设计算法的过程，当然不同于以往的算法设计，更多的是运用到机器学习的算法结合实际问题所设计的算法方案。
查看全文

相关阅读:
Autoit对win系统弹窗的操作
 Linux服务器测试网络连通性
 如何给linux配置两个不同网段的ip
记下看过并觉得非常有用的文章
 使用python+selenium对12306车票数据读取
 windows系统mysql安装
 Python使用正则匹配re实现eval计算器
 css3[补1]
Javascript[2]
Javascript[1]

原文地址：https://www.cnblogs.com/NextNight/p/6030638.html