1.14
1.hadoop序列化总结:
- 序列化是把内存中对象变成二进制序列的过程,目的是把易失的对象转化成永久保存的磁盘文件或进行网络传输。
- 反序列化是从二进制序列读取对象的过程
- 对于复杂的组合数据,可以自定义bean实现其序列化,需要实现Writable接口的两个方法write和readfields。
- wirte就是将对象往麻袋里写,readfields就是从麻袋里往外掏数据,赋给空对象。
- 自己写了一个hadoop序列化的程序完美运行
1.18:
1. 学会了debug:
- 先打断点
- step into 进方法内部
- step over 跳到下一个方法
- 被蓝底色横条加粗的就是当前选中的方法
2.MapTask 切片和Job提交
基本全在睡觉,就问你有什么影响 根本听不懂,记个结论就好。
(1)hadoop客户端提交job,是通过submit方法:
- 检查job状态为define
- 转换旧API为新API调用
- 连接集群
- 向集群提交job
- 检查job输出
- 获取临时文件夹
- 获取JobID
- 往job临时文件夹写jar包 写切片信息 写配置文件
(2)如何切片