zoukankan      html  css  js  c++  java
  • 云计算大会有感—MapReduce和UDF

    (转载请注明出处:http://blog.csdn.net/buptgshengod)

    1.參会有感

          首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。
            还是得从国家会议中心说起,两年前lz以前在那当过IDF的志愿者,当时是纯体力劳动,负责给參会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭躲到柜子后面直到开饭。真没想到两年后能够以来宾的身份參加国家会议中心的大会(尽管午餐还是苦逼的盒饭吧),这次真的能够走进主会议场聆听专家们的报告。说实话,一进主会议场看到几千个码农,都是差点儿相同的装扮,真的有点小震撼。
            听了几个院士和运营商老总的报告,最震撼的还是微软副总裁王亚勤先生的演讲,感觉挺震撼的。不得不说微软就是微软(大家能够搜搜这段演讲看一下),他说的有一句话非常有意思“从互联网让我们从物理变为虚拟,如今云让我们从虚拟变回物理”(没看懂的能够留言讨论哈)。
            參加这次大会不是为了学一个算法或是什么,应该是从宏观上了解云的发展。李德毅院士说:云就是计算P级数据的能力。确实,随着数据过剩的时代已经到来。数据成了解决这个问题的基础,算法是解决这个问题的工具,云就是我们的途径。

    2.云就在身边

         以下写下我近期在操作阿里云的一些感受,博主參加了阿里的天猫大数据竞赛,靠着抱大腿战术成功入围S2,阿里给每一个进入S2阶段的队伍开设了server端的账号。先秀一下,阿里云端的虚拟机界面,(苦逼的xp)

    以下一行黑色的就是阿里云odps的命令行工具,在里面能够进行数据库操作,主要是sql语句。我的理解是这个odps就是hadoop的改版,不知道这样的说法对不正确。
            记得当年,我们寝室的czx问我们几个什么是云,旭哥说了:“我认为云就是分布式。”

    (1)MR        

            分布式就是将大量的数据运算依照一定规则分配到云上的无数个server上,并行完毕,这样就能够极大地提高运算效率。然而,怎样分配,计算完又怎样将数据汇总,这就依赖于MapReduce了,这里简称MR。
            MR来源于google的一篇论文,MR分为mapper和reducer,mapper是将数据分割为key,value对的形式,reducer是对每一个key的value的逻辑进行计算。driver负责一些传入传出的数据入口。上个图吧,这是我在阿里server上的一个MR程序

            写好的MR程序,export成为jar文件,再传到云上,将数据库的table输入就能够实现相应的算法了。

     (2)udf

             udf就是实现云端的sql的function函数。举个样例,比方说有个表,里面的数据是412142=>3522。我们想以中间的箭头符号为分隔,获取412142或是3522.由于sql中是没有相似于splite的函数的。所以我们要写一个sql的function实现这个功能。这个function我们用java写好,仅仅要将生成的jar文件放到云端,就能够调用。

           

              以上是我对于云的一些感受和看法,欢迎大家留言讨论!
  • 相关阅读:
    Python入门11 —— 基本数据类型的操作
    Win10安装7 —— 系统的优化
    Win10安装6 —— 系统的激活
    Win10安装5 —— 系统安装步骤
    Win10安装4 —— 通过BIOS进入PE
    Win10安装2 —— 版本的选择与下载
    Win10安装1 —— 引言与目录
    Win10安装3 —— U盘启动工具安装
    虚拟机 —— VMware Workstation15安装教程
    Python入门10 —— for循环
  • 原文地址:https://www.cnblogs.com/mfrbuaa/p/3760571.html
Copyright © 2011-2022 走看看