炼数成金hadoop视频干货01

zoukankan html css js c++ java

炼数成金hadoop视频干货01

视频地址：http://pan.baidu.com/s/1dDEgKwD

最开始还是讲hadoop的起源，但是和其他垃圾视频不同，不是照本宣科，听了还是受益。作者给人一种感觉就是他是确实把他的经验和体会告诉别人，而不是像其他讲师把网上别人的思想讲一遍

视频给了课程目标，不知道我听完了视频能达到多少

　　

Google是两个大学生创业建立起来的，值得我去反思，我的年轻在哪里？

Google是hadoop的细想之源；

通讯运营商要向Google付费（Google已经垄断到这种地步了）

Google的数据是放在内存中的，这样少了很多IO，速度快了很多；为了防止内存丢失灾难，使用冗余备份

快速搜索思想：倒排索引，不是like；

百度之所以这么牛（在中国），是它中文分词研究的很好；

Page Rank，Google核心算法。用来给每个页面评分，从众多页面中找到用户想要的。被链接的数量，不同的链接含金量不同；

EXSI，vmware的一个软件，小型改造的Linux，可以把一台服务器虚拟成N台，一台服务器只能跑一个EXSI，不能再装其他系统了

平时用的叫VMware workstation

hadoop架构

　　

这个在后面的版本中变化不是很大；

namenode secondaryname jobtracker 可以装在不同的机器上

集群模拟最好是三台，可以完全模拟datanode在备份时的操作和MR在分配任务时的操作

视频是12年出的，讲的hadoop版本也是很低：0.20.2。那个时候hadoop才出道1.x，现在都是2.5.x了

PIG：进行简单的数据分析，有自己的语言；

HBASE：分布式列数据库、可以部署在hadoop上也可以单独部署，Nosql;

HIVE：SQL语言到MR的映射器，将SQL语句转换成MR程序；

...

欲为大树，何与草争；心若不动，风又奈何。

查看全文

相关阅读:
Codeforces1335F Robots on a Grid
BJOI2014 大融合
 洛谷 P1463 [SDOI2005]反素数ant && codevs2912反素数
 codeforce 570 problem E&& 51Nod-1503-猪和回文
 洛谷noip 模拟赛 day1 T1
noip 2010 三国游戏
 noip 2013 华容道
 汕头市队赛 SRM 07 D 天才麻将少女kpm
noip2012 普及组
 汕头市队赛 SRM 08 B

原文地址：https://www.cnblogs.com/admln/p/dataguru1.html