吴裕雄--天生自然HADOOP操作实验学习笔记：ETL案例

zoukankan html css js c++ java

吴裕雄--天生自然HADOOP操作实验学习笔记：ETL案例

实验目的

熟悉hadoop生态系统

初步了解大数据点击流分析业务

学会使用hadoop进行数据分析统计

实验原理

　　hadoop主要有三部分，hdfs做数据存储、mapreduce做数据计算、yarn做资源调度。在企业生产环境下，对数据做统计需要结合hadoop三个部分综合运用，中间还要使用kafka、storm、hive、hbase、flume、sqoop、mahout等其它工具。架构一般都会很复杂，接下来几个实验我们主要是针对mapreduce的运用，熟悉企业数据处理的一般步骤。

1.数据ETL
　　数据ETL我们之前讲过，通hive进行处理。同样通过mapreduce进行处理也是常用的思路。一般情况下，我们会记录一个用户访问某个网站的url，数据格式如下：

24162912299|156682|17|353817084376524|913|2017-03-07 15:43:59.355741|2017-03-07 15:44:36.938215|10.216.41.184|58.251.80.100||460011030082524|116.79.217.172|220.206.128.106|0||

29722404056|12379|131|861891035159110|205|2017-03-07 15:43:33.325067|2017-03-07 15:44:36.938252|10.41.188.107|42.236.74.242|Mozilla/5.0 (Linux; U; Android 6.0;zh_cn; Le X620 Build/HEXCNFN5902012151S) AppleWebKit/537.36 (KHTML, like Gecko)Version/4.0 Chrome/49.0.0.0 Mobile Safari/537.36 EUI Browser/5.9.020S|460011391687384|10.103.47.186|10.100.33.227|0||http://web.users.51.la/go.asp?svid=15&id=19022975&tpages=14&ttimes=69&tzone=8&tcolor=32&sSize=412,732&referrer=http%3A//3g.wenxuemm.com/wapbook/58485_16779691.html&vpage=http%3A//mht.1kmb.cn/page_131.html&vvtime=1488872612376

29622649009|45350|22472|8625310314090700|913|2017-03-07 15:44:36.938314|2017-03-07 15:44:36.972407|10.27.50.191|111.206.205.2||460011531516236|116.79.202.60|220.206.128.58|0||

　　其中第一列是加密后的用户id，第六列是访问时间，最后一列是访问的url，其他列为相关的其他信息。在没有其他条件的辅助下，我们没法直接知道一个用户的访问每个url之间的关系，比较通用的思路是每三十分钟为一个段，如果在访问某个url后三十分钟内访问其他url，认为是一个段。基于这个思路，我们首先对源数据进行初步处理：
　　对每个用户的访问记录按照时间排序，相邻记录小于三十分钟认为是一个session，sessionId相同，如果大于三十分钟就重新新建一个sessionId。

2.相关业务实现
　　基于刚刚的分段数据，要进行pv、uv的统计就很简单了，pv就是统计所有的几率和，而uv就是按照一定条件去重再统计。另外如果要计算新增用户、流失用户，需要有累积下来的历史用户数据，业务逻辑都不复杂。进行简单的统计后，更复杂的便是根据用户数据进行挖掘，一方面要挖掘潜在价值、进行千人千面的推荐、发现关联规则等。这就涉及到机器学习的一些算法。今天我们首先进行最简单的pv统计实现。
　　显然这只是一种比较粗糙的方法，判断的结果有很多不符合实际，实际上我们第一步进行数据过滤，可以基于用户关系模型，也就是类似我们前面使用hive的时候用的基于IP的雪花模型，大家可以自行思考。

实验环境

1.操作系统
　　服务器：Linux_Centos
　　操作机：Windows_7
　　服务器默认用户名：root，密码：123456
　　操作机默认用户名：hongya，密码：123456
2.实验工具
　　IntelliJ IDEA

IDEA全称IntelliJ IDEA，是java语言开发的集成环境，IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品，这家公司总部位于捷克共和国的首都布拉格，开发人员以严谨著称的东欧程序员为主。

　　优点：
１）最突出的功能自然是调试(Debug)，可以对Java代码，JavaScript，JQuery,Ajax等技术进行调试。其他编辑功能抛开不看，这点远胜Eclipse。
２）首先查看Map类型的对象，如果实现类采用的是哈希映射，则会自动过滤空的Entry实例。不像Eclipse，只能在默认的toString()方法中寻找你所要的key。
３）其次，需要动态Evaluate一个表达式的值，比如我得到了一个类的实例，但是并不知晓它的API，可以通过Code Completion点出它所支持的方法，这点Eclipse无法比拟。
４）最后，在多线程调试的情况下，Log on console的功能可以帮你检查多线程执行的情况。

　　缺点：
１）插件开发匮乏，比起Eclipse，IDEA只能算是个插件的矮子，目前官方公布的插件不足400个，并且许多插件实质性的东西并没有，可能是IDEA本身就太强大了。
２）在同一页面中只支持单工程，这为开发带来一定的不便，特别是喜欢开发时建一个测试工程来测试部分方法的程序员带来心理上的不认同。
３）匮乏的技术文章，目前网络中能找到的技术支持基本没有，技术文章也少之又少。
４）资源消耗比较大，建个大中型的J2EE项目，启动后基本要200M以上的内存支持，包括安装软件在内，差不多要500M的硬盘空间支持。(由于很多智能功能是实时的，因此包括系统类在内的所有类都被IDEA存放到IDEA的工作路径中)。

　　特色功能：
　　智能选择
　　丰富的导航模式
　　历史记录功能
　　JUnit的完美支持
　　对重构的优越支持
　　编码辅助
　　灵活的排版功能
　　XML的完美支持
　　动态语法检测
　　代码检查等等。

步骤1：编写ETL代码

　　本次实验数据来自于网络，我们会将一定时间内的数据放在hadoop上面，本次实验将不会在本地进行，而是将写好的程序打成jar包，上传到hadoop集群中，通过shell命令提交运行。开发任务还是在本地进行，本次实验的代码放在D:hongyaideaspacehellohadoopsrccomhongyaday030_034statisticetl内，首先打开操作机桌面的IDEA，进入项目hellohadoop｜com.hongya｜day030_034直接查看代码即可。

　　1.1刚刚的思路是对每个用户的url数据，按照时间排序，相邻访问记录在30分钟以内认为是一个段，最后我们得到每个用户的段数。所以思路就是map中进行简单的过滤后，以用户为key，时间和访问记录为value写出，在reduce中按照时间排序。
　　
　　map方法实现：

@Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        UrlEntity urlEntity = SegmentUtils.getUrlEntity(value.toString());

        if (urlEntity == null){

            return;

        }

        //去秒闪,开始时间和结束时间在2秒以内

       if (format.parse(urlEntity.getEndTime()).getTime() - format.parse(urlEntity.getStartTime()).getTime() < 2 * 1000){

                return;

        }

        outputKey.set(urlEntity.getId());

        outputKey.set(urlEntity.getStartTime() + "|" + urlEntity.getUrl());

        context.write(outputKey,outputValue);

    }

reduce实现：

@Override

    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        //全部放进一个list中

        List<UrlEntity> urls = new ArrayList<>();

           for (Text value : values){

            String[] split = value.toString().split("\|");

            if (split.length < 2){

                continue;

            }

            UrlEntity entity = new UrlEntity();

            entity.setStartTime(split[0]);

            entity.setUrl(split[1]);

            urls.add(entity);

        }

        //按照时间排序

        urls.sort((o1, o2) -> {

            try {

                long offset = format.parse(o1.getStartTime()).getTime() - format.parse(o2.getStartTime()).getTime();

                return offset == 0 ? 0 : (offset > 0 ? 1 : -1);

            } catch (ParseException e) {

                return 0;

            }

        });

        int sessionId = 0;

        long leftTime = 0;

        long rightTime;

        for (UrlEntity entity : urls){

            try {//判断相邻段的时间间隔

                rightTime = format.parse(entity.getStartTime()).getTime();

                if (rightTime - leftTime > 30 * 60 * 1000){

                    sessionId += 1;

                }

                outputKey.set(key.toString());

                outputValue.set(sessionId + "|" + entity.getUrl());

                context.write(outputKey,outputValue);

                leftTime = rightTime;

            } catch (ParseException e) {

                e.printStackTrace();

            }

        }

    }

查看全文

相关阅读:
RPC中阻塞队列的作用
 记用tensorflow-ranking时的bugs
JDK作泛型比较时为什么把逻辑代码写两遍
 Java 不能声明泛型数组
 QuickSort Hoare vs Lomuto
Java 对数组扩容
 Java交换两对象的问题
 毕业失业
 dependencyManagement介绍
 web笔记

原文地址：https://www.cnblogs.com/tszr/p/12191818.html