理解用户的各类行为,构建用户画像体系,帮助平台更加精准运营;在用户的各个维度上,利用数据挖掘、机器学习等技术分析建模,驱动营销、治理、评级等方向。
用户画像标签
一般用户画像标签分为统计类、规则类、机器学习挖掘类
- 统计类:用户性别、年龄、近7天活跃时长、消费记录
- 规则类:规则类与运营策略相关,标签形成会触发相应策略
- 机器学习挖掘类:如用户价格敏感度、用户偏好、用户流失倾向性等
一般用户标签涵盖:用户活跃度、用户忠诚度、用户价值度、用户偏好类(价格、补贴、时间)、购物风格)、用户风险度
用户画像架构
在整个工程化方案中,系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外,系统主体还包括Spark Streaming、ETL、产品端3个重要组成部分。
- Hive:存储用户标签计算结果、用户人群计算结果、用户特征库计算结果。
- MySQL:存储标签元数据,监控相关数据,导出到业务系统的数据。
- HBase:存储线上接口实时调用类数据。
- Elasticserch:支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂,使用Impala执行也需花费大量时间)。
用户标签数据在Hive中加工完成后,部分标签通过Sqoop同步到MySQL数据库,提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化推荐。
用户画像模块