zoukankan      html  css  js  c++  java
  • 大数据之路_1

    大数据的特点:
    1.数据来源广
    数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件)
    数据量大(最少是TB级别的,甚至可能是PB级别的)、数据增长速度快等

    采集汇总:Sqoop、Cammel、DataX工具
    存储:GFS、HDFS、TFS等分布式文件存储
    批处理运算:MapReduce 。分布式快速运算框架
    解析引擎:Hive,Pig 将SQL转换为MapReduce的解析引擎。
    流处理运算:Strom/JStrom等低延时的流式计算框架。
    集群:Hadoop(HDFS+MapReduce+Yarn) 和Storm
    一站式集群:Spark 一站式计算框架,即可以进行批处理,也可以进行流处理(微批处理)
    Lambda框架,Kappa架构的出现,提供了业务处理的通用框架。
    辅助工具(加快工作效率,加快运算速度):
    1:Ozzie,azkaban:定时任务调度的工具
    2.Hue,Zepplin:图形化任务执行管理,结果查看工具
    3.Scala语言:编写Spark程序的最佳语言,可以选择用Python
    4.Python语言,编写脚本时会用到
    5.Alluxio,kylin等,通过对存储的数据进行预处理,加快运算速度的工具。

    针对以上特点,要考虑的问题
    1.数据来源广,如何采集汇总? Sqoop,Cammel,DataX等工具
    2.数据采集后,如何存储?对应出现了GFS、HDFS、TFS等分布式文件存储系统
    3.由于数据增长速度快,数据存储要求可以水平扩展,
    4.数据存储后,该如何通过运算快速转换成一致的格式,快速运算出自己要的结果。
    对应的MapReduce的分布式运算框架解决了这个问题。
    普通的MapReduce只能一批一批的处理,时间延时太长了,为了实现,每输入一条数据就得到结果,出现了Strom/JStrom这样的低延时流式计算框架。

    如果同时要做批处理和流处理,就要搭两个集群,Hadoop集群和Storm集群
  • 相关阅读:
    HDU 1847
    HDU 1717
    KMP未优化模板、
    Codeforces Round #340 (Div. 2) B. Chocolate
    HDU 1042 N!
    HDU 1018 Big Number
    HDU 1031 Design T-Shirt
    解决Windows 7删除执行过的 EXE、Bat文件有延迟的问题
    修改Android手机的“虚拟机堆大小”和android:largeHeap来防止APP内存溢出问题
    Android引用百度定位API第三方组件后导致其它.so文件无法正常加载的问题
  • 原文地址:https://www.cnblogs.com/sujingnuli/p/9947164.html
Copyright © 2011-2022 走看看