Hadoop演讲:
大家好,首先我先说一下我今天主要介绍的几个内容 1hadoop简单介绍以及安装
2hadoop中mapreduce在CRM客户分配场景中的具体应用
3数据挖掘数据分析方面利用Hadoop上的应用Mahout来实现经典的聚类算法。
首先我先介绍一下HADOOP,介绍Hadoop,我们就是要说hadoop是什么 hadoop能做些什么 对我们有什么帮助。
hadoop是云计算的一种,云计算就是把执行的任务作业,分布到各个计算机上执行,汇成数据池。提供一种商业的服务。
另外Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,HADOOP有俩大核心组成,HDFS分布式的数据存储他就和我们windows常用的ntfs system32文件存储一样,也可以创建目录,创建文件,删除,复制文件。但是为什么说他适合于分布式大数据存储呢,因为在hdfs底层是以block数据块模式来进行数据存储。默认为64M大小,就是说当一个文件传过来,把他切割成一个个的数据块分布到各个本地计算机上去并行的执行,这样就会节省很大的效率。从这就可以看出来hadoop的优势,就是说我们现在的etl过程,赵哥那天所说的我们会做很多的无谓的挪东数据,比如数据仓库ODS家在上数据,有一些数据经过很少的加工,或者甚至不加工就给下游系统报表,绩效考核,反洗钱下发。这样一家在,已下发就做了很多无谓的数据移动,而hadoop可以把工作放在本地,有效的节约效率。就实现所说的‘移动的计算要比移动数据更经济’ 我们完全可以把一些原始数据放在hdfs按照一定组织形式上的一个目录下,可能像
只能报表,qlikview直接就去hive的目录下取数就好。省去了很多无谓的操作。
第二大核心就是mapreduce分布式并行计算函数和脚本来进行编写,他的Java调用Job的方式也是就是直接可以并行的计算。map reduce函数的形式。按照自己的需求进行函数的便携,直接就可以运行在分布式的集群。我前一尝试做了10个机器的一个集群。尝试了对传统的关系型数据库的常用的sql进行测试,比如select ordr by group by left join inner join表见关联等。
实现了这些常见的SQL我们就可对现有的存储过程进行改造,并行运算增加运行的效率。实现一些日均余额算法等。当然现在hadoop捉奸在和oracle关系型数据库靠拢,毕竟sql人好是很多,
他也有分布式的数据仓库hive其中使用的语言hqlhesql很相似。sql查询语句,mapreduce用脚本,函数
效率,并行计算是hadoop的一个优势,另一个优势就是他的对数据分析,对数据的挖掘。
他除了能方便帮助我们提升效率,还有就是能对数据的分析,比如大量的数据文件的日志,就比如微博我需要对使用的用户进行分析,我们每次关注某个方面的主页,比如篮球,yunjisuan
银行 我们每次点击,都会记录下来,对日志文件惊醒分析,客户点过的词书,排序 为你推荐东西。,淘宝才你喜欢 为你推荐商品,都是同事是在线分析来实现。
当然对我们的帮助可能就是,帮助客户经理,分析出按照纬度分析出客户群 什么样子的客户为一类,挖掘出心的客户,重点关注得到呢个等
hadoop到此是什么:
在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。
- hadoop是什么?
Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。 - hadoop能做什么?
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!) - hadoop能为我司做什么?
零数据基础,零数据平台,一切起点都是0。
- 日志处理
- 用户细分特征建模
- 个性化广告推荐
- 智能仪器推荐
一切以增加企业的商业价值为核心目的、最终目的
4.怎么用hadoop?
- hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方案是hadoop+R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能出一定成果的,所以选取了这个方向作为试点。