zoukankan      html  css  js  c++  java
  • 炼数成金hadoop视频干货01


    视频地址:http://pan.baidu.com/s/1dDEgKwD


    最开始还是讲hadoop的起源,但是和其他垃圾视频不同,不是照本宣科,听了还是受益。作者给人一种感觉就是他是确实把他的经验和体会告诉别人,而不是像其他讲师把网上别人的思想讲一遍


    视频给了课程目标,不知道我听完了视频能达到多少

      


    Google是两个大学生创业建立起来的,值得我去反思,我的年轻在哪里?

    Google是hadoop的细想之源;

    通讯运营商要向Google付费(Google已经垄断到这种地步了)

    Google的数据是放在内存中的,这样少了很多IO,速度快了很多;为了防止内存丢失灾难,使用冗余备份

    快速搜索思想:倒排索引,不是like;

    百度之所以这么牛(在中国),是它中文分词研究的很好;

    Page Rank,Google核心算法。用来给每个页面评分,从众多页面中找到用户想要的。被链接的数量,不同的链接含金量不同;


    EXSI,vmware的一个软件,小型改造的Linux,可以把一台服务器虚拟成N台,一台服务器只能跑一个EXSI,不能再装其他系统了

    平时用的叫VMware workstation


    hadoop架构

      

    这个在后面的版本中变化不是很大;


     namenode secondaryname jobtracker  可以装在不同的机器上


    集群模拟最好是三台,可以完全模拟datanode在备份时的操作和MR在分配任务时的操作


    视频是12年出的,讲的hadoop版本也是很低:0.20.2。 那个时候hadoop才出道1.x,现在都是2.5.x了


    PIG:进行简单的数据分析,有自己的语言;

    HBASE:分布式列数据库、可以部署在hadoop上也可以单独部署,Nosql;

    HIVE:SQL语言到MR的映射器,将SQL语句转换成MR程序; 

    ...


    欲为大树,何与草争;心若不动,风又奈何。
  • 相关阅读:
    Java 程序流程语句
    Java 基本语法
    Java 环境搭建
    Spring事务管理
    AOP 与 Spring中AOP使用(下)
    python爬虫笔记之爬取足球比赛赛程
    python爬虫笔记之re.match匹配,与search、findall区别
    python爬虫笔记之re.compile.findall()
    python爬虫笔记之re.IGNORECASE
    跨站脚本攻击(selfxss)笔记(三)
  • 原文地址:https://www.cnblogs.com/admln/p/dataguru1.html
Copyright © 2011-2022 走看看