zoukankan      html  css  js  c++  java
  • 大数据乱入

        以前谈及大数据,总会第一想到的是Hadoop,分布式,然后没了。而真正接触大数据的时候,发现这是一个很大的体系,大数据只是个概念,而真正的核心在于数据的操作上,从数据的收集,处理,存储,计算上来发现数据中潜藏的价值。

      大数据,机器学习,深度学习,人工智能,这几个比较火热的话题,其实中间存在着千丝万缕的联系。机器学习,深度学习,都是服务于机器智能化,为人工智能提供了可能,同时也为发现数据的潜在价值提供了思路。

    •   个人理解的粗略的大数据处理流程:

                

      在我看来大数据的整个处理过程所为的目标不过是提供解决方案,当然,又到了先有鸡还是先有蛋的问题,有问题才有解决方案。大数据的终极目标是挖掘数据的潜在价值,所以说目前的大数据处理大部分还是在解决问题的层面上,真正没有根源的去从数据的各个维度去挖掘他的关系,发掘具有独特价值的部分,并没有成为当下大数据发展的主流。

    •   数据收集系统:  
      •    平台化积累数据:
        •   海量数据积累需要一个循序渐进的过程,没有一个好的平台是不可能完成,像国内的型电商平台(淘宝,京东。。)拥有海量的用户消费数据。腾讯平台拥有海量的用户娱乐数据。百度则拥有用户的搜索数据。链家网则拥有用户的购房数据。。。
      •    大规模数据抓取:
        •   没有平台化的数据积累,只有选择网络爬虫构建数据抓取系统,从互联网上抓取所需要的数据
    •   数据存储系统:
      •   结构化数据库:oracle,mysql,sqlserver,等传统的结构化数据库
      •   分布式数据库:
          Redis: in memory key-value store,同时提供了更加丰富的数据结构和运算的能力,成功用法是替代memcached,通过checkpoint和commit log提供了快速的宕机恢复,同时支持replication提供读可扩展和高可用。
          Mongodb:  Document Store,分布式nosql,具备了区别mysql的最大亮点:可扩展性。mongodb 最新引人的莫过于提供了sql接口,是目前nosql里最像mysql的,只是没有ACID的特性,发展很快,支持了索引等特性,上手容易,对于数据量远超内存限制的场景来说,还需要慎重。
          HBase: Column Table Store,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构存储集群。
      •   文件系统:可以将数据存储在磁盘文件上
    •   数据分析系统:数据的分析也是大数据的核心,
      •   数据预处理
      •   数据建模
      •   数据计算
      •   数据分析

           针对不同的问题,建立所需的模型,模型的好坏直接决定着解决方案的效果。建模的过程说白了就是设计算法的过程,当然不同于以往的算法设计,更多的是运用到机器学习的算法结合实际问题所设计的算法方案。

  • 相关阅读:
    跟我一起学Go系列:gRPC 全局数据传输和超时处理
    跟我一起学Go系列:Go gRPC 安全认证方式-Token和自定义认证
    c++中的继承关系
    数值型模板参数的应用
    [源码解析] 机器学习参数服务器Paracel (3)------数据处理
    [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader
    [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler
    [源码解析] 机器学习参数服务器 Paracel (2)--------SSP控制协议实现
    [源码解析] 机器学习参数服务器 Paracel (1)-----总体架构
    [源码解析]机器学习参数服务器ps-lite(4) ----- 应用节点实现
  • 原文地址:https://www.cnblogs.com/NextNight/p/6030638.html
Copyright © 2011-2022 走看看