了解Hadoop和大数据

zoukankan html css js c++ java

了解Hadoop和大数据

1. 场景：

现在人产生数据越来越快，机器则更快，所以需要另外的一种处理数据的方法。
硬盘容量增加，但是性能没跟上，解决办法是将数据分到多块硬盘，然后同时读取。

问题:
硬件问题 -- 复制数据解决(RAID)
分析需要从不同的硬盘读取的数据： MapReduce

Hadoop:
1) 可靠的共享存储(分布式存储)
2) 抽象的分析接口(分布式分析)

2. 大数据
-- 可以理解为不能使用一台机器处理的数据

大数据的核心是样本 = 总体

特性：大量性快速性多样性易变性准确性复杂性

关键技术：
1) 数据分布在多台机器
-- 可靠性：每个数据块都复制到多个节点
性能：多个节点同时处理数据
2) 计算随数据走
网络IO速度<<本地磁盘速度，大数据系统会尽量地将任务分配到离数据最近的机器上运行
(程序运行时，将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移，避免大规模数据时，造成大量数据迁移的情况，尽量让一段数据的计算发生在同一台机器上
3) 串行IO取代随机IO
传输时间<<寻道时间，一般数据写入后不再修改

** 大数据主要解决的是数据比较多，所以存放到多台机器上，那么需要关注数据存储的问题，以及数据的安全保障，还有数据的计算问题，计算的性能；

3. Hadoop

Hadoop高容错、高可靠性、高扩展性，特别适合写一次，读多次的场景。

适合：
大规模数据
流式数据(写一次，读多次)
商用硬件(一般硬件)

不适合：
低延迟的数据访问
大量的小文件
频繁修改文件(基本就是写1次)

** 4. Hadoop架构

HDFS: 分布式文件存储
YARN：分布式资源管理
MapReduce：分布式计算
Others：利用YARN的资源管理功能实现其他的数据处理方式

内部各个节点基本都是采用Master-Woker架构

查看全文

相关阅读:
2.采用字符的移位方式实现字符文本加密解密。
用自己的算法实现startsWith和endsWith功能。
采用多种算法，模拟摇奖：从1-36中随机抽出8个不重复的数字
 输入5个数用冒泡排序进行从小到大排列
 题目六：控制台输入年龄，根据年龄输出不同的提示
 题目五：控制台输出三角形和菱形
 题目四：控制台输出九九乘法表
 百马百担
 classNum 表示学生的班号，例如“class05”。有如下List List list = new ArrayList();
已知有十六支男子足球队参加2008 北京奥运会。写一个程序，把这16 支球队随机分为4 个组。采用List集合和随机数 2008 北京奥运会男足参赛国家：科特迪瓦，阿根廷，澳大利亚，塞尔维亚，荷兰，尼日利亚、日本，美国，中国，新西兰，巴西，比利时，韩国，喀麦隆，洪都拉斯，意大利

原文地址：https://www.cnblogs.com/yys369/p/5852293.html