zoukankan      html  css  js  c++  java
  • 数据分析实战项目(一)

    淘宝用户行为分析


    项目背景和数据

    通过此项目学习电商数据分析的指标与数据分析的基本方法。
    

    数据来源

    阿里云天池数据库

    数据描述

    • 数据集介绍
    文件名称 说明 包含特征
    UserBehavior.csv 包含所有的用户行为数据 用户ID,商品ID,商品类目ID,行为类型,时间戳
    • UserBehavior.csv
    本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
    数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
    
    列名称 说明
    用户ID 整数类型,序列化后的用户ID
    商品ID 整数类型,序列化后的商品ID
    商品类目ID 整数类型,序列化后的商品所属类目ID
    行为类型 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')
    时间戳 行为发生的时间戳
    • 用户行为类型共有四种
    行为类型 说明
    pv 商品详情页pv,等价于点击
    buy 商品购买
    cart 将商品加入购物车
    fav 收藏商品
    • 关于数据集大小的一些说明如下
    维度 数量
    用户数量 987,994
    商品数量 4,162,024
    商品类目数量 9,439
    所有行为数量 100,150,807

    分析维度

    根据现有数据及分析目的,从四个维度进行分析:

    # 第一个维度:用户购物情况整体分析
    以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
    
    # 第二个维度:商品购买情况分析
    从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律
    
    # 第三个维度:用户行为转化漏斗分析
    从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析
    
    # 第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户
    

    分析流程

    提出问题------理解数据------数据清洗------构建模型------数据可视化

    提出问题

    用户最活跃的日期及时段
    用户对商品有哪些购买偏好
    用户行为间的转化情况
    用户分类,哪些是有价值的用户
    

    理解数据

    见数据说明

    数据清洗

    包含数据导入(采用SQLyog)、缺失值处理、一致化处理、异常值处理(2017.11.25到2017.12.3日内的数据)

    构建模型

    数据可视化

    问题及解决方法

    这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?

    
    
    
    初晨暖阳,夜落星河。 少年披梦,远方有歌。 红黄之上,春夏晚风。 闲肆游走,人群熙攘。
  • 相关阅读:
    go if 判断 完成随机分数的评级
    go for循环
    go 常量2
    go 常量定义和使用
    更新数据库某字段数据为流水号
    BPM设定操作超时
    BPM打印按钮
    BPM链接处理
    项目管理
    公司规划
  • 原文地址:https://www.cnblogs.com/alidata/p/13418537.html
Copyright © 2011-2022 走看看