zoukankan      html  css  js  c++  java
  • 大数据学习笔记(一)

      开始读《大数据时代》一书,为以后大数据方面的工作做做准备吧。虽然学习状态还是颇为浮躁的,但是多学一点是一点,多看一点是一点,多运动一点是一点,就以这种心态勉励自己继续积极学习和锻炼下去吧。

      读一点书,查一查资料,做一点笔记,慢慢更新。

    MapReduce思想(摘自百度百科)

      在MapReduce里,Map处理的是原始数据,自然是杂乱无章的,每条数据之间互相没有关系;到了Reduce阶段,数据是以key后面跟着若干个value来组织的,这些value有相关性,至少它们都在一个key下面,于是就符合函数式语言里map和reduce的基本思想了。
      这样我们就可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。

      NoSQL(NoSQL = Not Only SQL ) ,泛指非关系型的数据库。

      HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库;另一个不同的是HBase基于列的而不是基于行的模式

      大数据时代转变:

    一、我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样

    二、研究数据如此之多,以至于我们不再热衷于追求精确度

    三、因前两个转变而促成的,我们不再热衷于寻找因果关系,大数据告诉我们“是什么”而不是“为什么”,我们不必知道现象背后的原因,我们只要让数据自己发声。

  • 相关阅读:
    人生之清单(list of life)
    grpc编译错误解决
    windows tensorflow 版本与升级
    PermissionError: [Errno 13] in python
    经典分析--HTTP协议
    介绍 JSON
    Json 不同语言的使用
    JSON标准格式
    JSON 数据格式
    SKINTOOL 系统不能正常运行
  • 原文地址:https://www.cnblogs.com/yongwangzhiqian/p/4231087.html
Copyright © 2011-2022 走看看