这一周自己大约一共发了10篇博客:
有一个是爬虫项目的实战,爬取的是豆瓣影院的相关电影信息。
然后其余的博客就是和大数据相关的的了。主要会HDFS和MapReduce。简单的了解了api的操作hdsf的基本流程。配置了虚拟机的hadoop环境。
成功运行了maven项目,实现了项目文件上传,以及通过idea运行MapReduce。并分析最后的的运行结果。HDFS数据流进行的了解,好友yarn的伪分布式,wordcount在集群上运行等等知识点
总的代码量大约在500行左右。
在下一周自己的主要的任务是将MapReduce学习完成。