zoukankan      html  css  js  c++  java
  • 《Hadoop权威指南·大数据的存储与分析》阅读笔记(未读完)

    Hadoop基础知识:1.MapReduce 执行引擎

                              2.HDFS

                              3.Yarn

              4.Hadoop的I/O操作

    Hadoop相关开源项目:1. Avro   数据格式

                2.Parquet

                                    3.Flume  数据摄取

                4.Sqoop

                                    5.Pig   数据处理

                                    6.Hive

                                    7.Cruch

                                    8.Spark 

                                    9.Hbase  存储

                                    10.Zookeeper  协作

    Haoop相关开源项目:

    8. Spark 大数据处理的集群计算框架

    spark没有使用MapReduce作为执行引擎,而是使用自身的分布式运行环境在集群上执行工作

    spark内最核心的概念是RDD,弹性分布式数据集,集群中跨多个机器分区存储的只读的对象集合(弹性:可以通过安排计算重新得到丢失的分区)

    spark有延迟执行的机制,就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作,只不过是创建了一个计算的计划,只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同,Spark中的job是由多个阶段组成的一个有向无环图,每个阶段都相当于MapReduce中的Map或者Reduce,这些阶段会被分布在Spark内并行执行。

    弹性分布式数据集RDD:

    创建:来自内存中的对象集合;使用外部存储器中的数据集;现有RDD的转换

    redis的持久化:

  • 相关阅读:
    开源软件
    delphi 语法 点滴总结clientdataset
    combobox 下拉框 高度 调节 呵呵
    Delphi7中ClientDataSet的排序
    clientdataset 修改记录 成功
    http://bbs.csdn.net/topics/340046630 dbgrid怎么获取当前记录值
    Delphi中StrToDateTime函数TFormatSettings参数的使用
    IncSecond:将一个TDateTime变量加减一定数量的秒数
    clientdataset 做为 单机数据库的 使用 学习
    cmake命令用法整理list命令
  • 原文地址:https://www.cnblogs.com/Flower-Z/p/10683460.html
Copyright © 2011-2022 走看看