基于Kafka的服务端用户行为日志采集

zoukankan html css js c++ java

基于Kafka的服务端用户行为日志采集
本文来自网易云社区

作者：李勇
背景
随着互联网的不断发展，用户所产生的行为数据被越来越多的网站重视，那么什么是用户行为呢？所谓的用户行为主要由五种元素组成：时间、地点、人物、行为、行为对应的内容。为什么要做用户的行为分析？因为只有做了用户行为分析才能知道用户画像、才能知道用户在网站上的各种浏览、点击、购买背后的商业真相，从而给企业带来商业价值。
网易美学是一个供用户发现和分享美妆及护肤的社区。既然是一个社区，其中的用户行为分析扮演着举足轻重的角色。对应网易美学来说，用户行为主要有以下几个应用场景：
- 推荐系统。目前的推荐是基于用户的行为，然后运用不同的算法计算出用户应该展现的推荐数据。
- 拉新。对于一个产品来说，不断的获取新用户是其中一个目标，有更多的新用户使用产品，就意味着该产品能够得到更多人的认可。
- 转化率。一个用户从注册到各个页面的浏览等行为组成一个漏斗模型，漏斗的每个模型可以看到用户的留存状况。
- 留存率。一个产品不但能让更多的新用户使用，也要保证老的用户不流失。
- 促活率。所谓的促活率，就是让老用户经常使用该产品，让用户喜欢上这个平台。
埋点技术
用户的行为对于一个互联网产品来说很重要，因此如何采集用户的行为就变得非常至关重要了。对用户的行为采集可以通过埋点的方式实现，埋点主要有以下几种方式：
- 前端埋点。在某个控件操作发生时通过预先写好的代码来发数据的代码埋点。
- 客户端埋点。即app使用一些sdk对用户的行为进行收集然后批量发送到一个收集平台。
- 服务端埋点。服务端埋点就是通过拦截用户的请求接口，对用户的一些行为信息进行采集。
服务端日志采集
下面我详细介绍下网易美学的服务端日志采集系统使用的技术，总体架构，部署图，运作流程以及配置相关信息。
1. 技术选型
服务端日志采集主要通过在Controller的接口中进行埋点，然后通过AOP技术、Kafka消息系统以及logback对用户行为进行采集。
之所以使用AOP技术是因为AOP的以下重要特定：
- 代码的侵入性小。对于业务代码的侵入性小，只需要在Controller的接口上添加注解，然后在其他模块对用户行为进行采集。
- 重用性。对于相同作用的代码可以进行重用。
- 扩展性。能够很好的对系统进行扩展。
由于使用异步方式对用户行为信息进行收集，因此需要使用消息中间件。目前消息中间件非常多，比较流行的有ActiveMQ、ZeroMQ、RabbitMQ、Kafka等。每个消息中间件都有各种的优势劣势，之所以使用Kafka消息中间件，是因为以下几点因素：
- 高性能。每秒钟可以处理数以千计生产者生成的消息。
- 高扩展性。可以通过简单的增加服务器横向扩展Kafka集群的容量。
- 分布式。消息来自数以千计的服务，使用分布式来解决单机处理海量数据的瓶颈。
- 持久性。Kafka中的消息可以持久化到硬盘上，这样可以防止数据的丢失。
因为用户的行为数据最终是以日志的形式持久化的，因此使用logback对日志持久化到日志服务器中。
2.总体架构

图1 总体架构图
服务端日志采集系统主要由两个工程组成：beauty-bi-core和beauty-bi-service。由于网易美学的使用dubbo框架，因此有服务提供方和服务消费方。beauty-bi-core被web、wap和mainsite服务消费方依赖。此外，beauty-bi-service也依赖于beauty-bi-core，主要是依赖于其中的一些实体类及工具类。
beauty-bi-core工程为Kafka消息的生产者，主要封装实现切面的具体逻辑，其主要职责如下：
- 解析用户请求的Request信息：从Request中提取用户的基本信息，如设备型号、用户的供应商、ip、设备的分辨率、设备平台、设备的操作系统、设备id、app渠道等。
- 接口对应的参数：通过切面可以提取接口的参数值，从而知道用户的业务信息。
- 应用层返回的结果信息：因为切面使用AfterReturning方式，因此可以获取用层的返回结果，从返回结果中可以提取有用的信息。
- 用户的基本信息：用户的id信息。
- 信息格式化：将信息转化成JSON字符串。
- 发送消息：将最终需要发送的消息放入本地阻塞队列中，通过另一个线程异步从阻塞队列中获取消息并发送到Kafka Broker中。
beauty-bi-service工程为Kafka消息的消费者，其主要职责如下：
- 实时从Kafka中拉取最新的数据。
- 将JSON字符串转化成，方便进一步对用信息进行加工。
- 对用户的ip进行解析，获取ip对应的地区以及经纬度信息。
- 将加工好的最终信息持久化到log文件中。
3.部署图
图2 部署图
上图为网易美学与日志系统系统相关的部署图，App、Wap和Mainsite服务器集群分别对应不同终端的应用。Kafka集群使用杭研的集群，目前有10个Broker。日志服务器有两台，通过Kafka的均衡策略对日志进行消费。
4.日志采集的流程
日志采集流程图如下所示：

图3 日志打点流程图
上图为消息生产者和消息消费者共同组成的流程图。
消息生产者的具体步骤如下：
- 通过切面拦截用户的请求。
- 从切面中提取请求头的基本信息，如设备信息，cookie信息，ip信息等。
- 提取请求的接口参数信息。
- 从接口返回值中提取相关信息，如id，pvid等。
- 将提取的信息封装成JSON字符串，放到阻塞队列中，假如阻塞队列溢出会有三次重试机制。
- 异步线程从本地阻塞队列中获取数据，并将信息组装发送到Kafka的Broker中，此时消息生产者结束。
消息消费者的具体步骤如下：
- 实时从Kafka Broker中批量拉取消息。
- 将拉取的消息转化成对象。
- 解析ip对应的国家、省份、城市、经纬度信息。
- 对不同业务场景的信息进一步解析。
- 将日志信息转化成JSON字符串，持久化到log文件中。
5. 相关配置
- application-XXX.properties：该配置放Kafka的相关属性，包括topic、groupId、server等信息。
- beauty-log-msg.xml：该配置放在app-web，mainsite-web，wap-web的src/main/resources目录下，主要是初始化kafka生产者的信息。
- beauty-bi-service.xml：该配置放在beauty-bi-service工程的src/main/resources目录下，主要用于加载kafka消费者的配置信息，并且启动kafka消费者服务。
- logback.xml：该配置放在beauty-bi-service工程的src/main/resources目录下，主要用于声明日志文件存放的目录，需要持久化的日志的package路径，以及日志持久化的格式。
- ip_conf.txt：该配置放在beauty-bi-service工程的src/main/resources目录下，用于解析ip对应的地域、经纬度等信息。
网易云大礼包：https://www.163yun.com/gift

本文来自网易云社区，经作者勇授权发布。

相关文章：
【推荐】行为式验证码的前景
【推荐】知物由学 | AI网络安全实战：生成对抗网络
【推荐】 AndroidApp的破解技术有哪些？如何防止反编译？
查看全文

相关阅读:
精准医疗
 生物信息学的研究过程
 蛋白质结构预测
 CP
基因组大小控制因素
 RNA组研究困难
 输入input文本框的 U+202D和U+202C是什么
 ruby-get-url-query-params
golang send post request
nginx location配置

原文地址：https://www.cnblogs.com/163yun/p/9578250.html