Hadoop介绍和HDFS
目的:排序、找最小值、数据去重,统计很多文件中的各个单词的格式
1.处理大数据。php调用开发好的.jar文件(Hadoop程序)调用Hadoop的namenode调用DataNode
2.保存重要文件。文件服务,保存上传的图片(原始文件多了怎么办?文件丢失怎么办)
搭建lamp环境 搭建Hadoop环境(单机版) 开发单机版的Hadoop程序,并调用成功 开发集群Hadoop,并调用成功 开发一个HDFSHadoop文件服务器 MapReduce是什么?MapReduce最佳实践
Hadoop特点
1.处理海量数据 2.一次写入,多次读取。处理的是比较稳定,不经常修改的数据 3.对硬件要求不高,通常不需要商用一体机,需要普通数据仓库 4.高扩展性 5.高稳定性 6.高容错 Hadoop核心架构: HDFS:Hadoop分发文件系统 MapReduce:核心是数据处理模型 HBASE: 另外还有一些其他组件:hive、zookeeper HDFS:支持大文件存储,大小一般在G字节至T字节,Hadoop中一个文件被划分为固定大小的多个文件块,分布的存储在集群中的数据节点DataNode中,节点中的每个块block64M HDFS会将同一个文件块,在不同的节点保存多个副本 高数据吞吐量 Hadoop的namenode节点在master主机,管理各个DataNode节点(slave从机)和文件的目录结构和映射关系 网站优化瓶颈 流量吞吐 数据库并发 文件系统的存储
安装
netstat -an|more 22端口ssh