该星期主要学习了一些Hadoop的理论知识,以及为什么要使用Hadoop,在代码方面呢主要学习了一些matlab的基本知识,因为马上就要开始数学建模国赛的集训了。
第四周 |
|
所花时间(包括上课) |
5h |
代码量(行) |
200(MATLAB) |
博客量(篇) |
1 |
了解到的知识点 |
1. 大数据不仅仅是数据的“大量化”,更是包含“快速化”、“多样化”和“价值化”等多重属性。 2. 大数据包括两大核心技术“分布式存储”(HDFS)和“分布式处理”(MapReduce) 3. Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce 4. Hadoop的特性: 高可靠性 高效性 高可扩展性 高容错性 成本低 运行在Linux平台上 支持多种编程语言 5. 一个基本的Hadoop集群中的节点主要有 NameNode:负责协调集群中的数据存储 DataNode:存储被拆分的数据块 JobTracker:协调数据计算任务 TaskTracker:负责执行由JobTracker指派的任务 SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息 |