zoukankan      html  css  js  c++  java
  • Hadoop 一二事(1)

    大数据大数据,身边很多朋友都在谈大数据,Big Data!!!

    到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧

    hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的大象

    发音 /hadu:p/ 
    在Apache旗下作为一个开源项目
    它不是云计算,却是云计算中的一部分,属于大数据这块
    hadoop是一个开源的分布式计算系统
     
    hadoop所解决的问题:
         海量数据存储 - HDFS (分布式文件系统,分布在多台电脑上进行存储)可以理解为一个大型的网盘,例如百度网盘,115网盘,可以进行上传下载
         海量数据分析 - MapReduce (分布式的计算模型)有多台机子进行数据的分析,例如原来工地有一个人搬砖,一次性搬100块砖头,后来分为100个人,每个人搬10块,同时会有老大工头监控这些小弟
     
    hadoop擅长日志分析
     
    现在的淘宝使用Stome来进行实时推荐
     
    凌晨分析后的产生有用的数据,分为冷数据和热数据,冷数据存放在MyFox中(Mysql集群),热数据存放在Prom中(HBase集群)
     
    实时流数据处理使用Storm,可以用于购买商品时实时推送推荐商品
    Hive可以用于附近认识的人,朋友圈你可能认识的人,校内网(从网,或者说人人网)中的推荐认识的好友
     
    现在hadoop已经出到了2,但是很多公司还是会基于1.0版本,因为稳定,也省去了迁移的风险
     
    生态圈,各种掉渣天高大上(非常喜欢zookeeper)
     
    hadoop的安装有2种
    本地模式:使用eclipse进行调试,只有一个map,只有一个reduce
    伪分布式:模拟多台机子,进行调试
    集群模式:生产环境
     
     
     
     
  • 相关阅读:
    51nod 1428 活动安排问题
    COGS 1. 加法问题 (水体日常)
    COGS 1406. 邻居年龄排序[Age Sort,UVa 11462](水题日常)
    51nod 1133 不重叠的线段
    51nod 1031 骨牌覆盖
    51nod 1050 循环数组最大子段和
    51nod 1094 和为k的连续区间
    51nod 1433 0和5
    51nod 1092 回文字符串
    洛谷 P1507 NASA的食物计划
  • 原文地址:https://www.cnblogs.com/leechenxiang/p/5425804.html
Copyright © 2011-2022 走看看