zoukankan      html  css  js  c++  java
  • 数据分析——狐逻&泰罗学院学员画像

    数据分析——狐逻&泰罗学院学员画

    一、数据源

    数据来源于集团数据库,学员大表

    该数据集中共有26w+学员报名的数据,字段信息29个,可大致分为

    1.订单相关字段

    子订单id

    子订单编号

    学员id

    姓名

    报名时间

    服务期截止时间

    支付金额

    支付方式

    订单状态

    2.课程相关字段:

    一级项目

    二级项目

    班型

    3.班主任相关字段:

    学院

    家族

    花名

    班级名称

    4.出勤信息相关字段:

    连续缺勤直播次数

    应出勤课程数

    出勤率

    累计学习时长

    持续休眠天数

    5.学员信息相关字段:

    是否有考试计划

    准考证填写情况

    报考省份

    报考城市

    是否绑定官微

    标签

    加微信状态

     

     

     

    二、提出需求

    对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:

    1. 学员地理位置分布如何?

    2. 学生班主任分布如何?

    3.课程分布情况如何?

    三、数据清洗

    1. 选择子集

    由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。

    2. 列名重命名

    此数据中列名为英文,将其改为中文。

    3. 删除重复值

    对学员名称进行操作删除重复值,发现同一学员id但上线日期不同,应为有效数据,予以保留。

    4. 处理缺失值

    对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。

    5. 一致性处理、排序、处理异常值

    本数据较为规范,无需进行额外操作,可直接进行下一步分析。

     

    四、构建模型

    1. 学员分布城市主要包括为那些地区,各比例如何?

    2. 哪些课程较受欢迎,学生数较多?

    3. 哪些班主任较受欢迎,学生数较多?

    4. 课程持续时长不同是否会影响学生完成情况?

    五、数据分析可视化

    1.利用数据透视表,对地理位置进行分析,如图1所示,地理位置分布情况如下:

    图1 各地理位置分布条形图

    进一步对省份进行分析,结果如图1所示,广东地区学员人数最多。

    2. 以课程分布为依据,选择自考的学生数较多,其次教师资格证的学生较多。

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    3. 以班主任分布为依据,选择教师资格证的张涛老师的学生数较多,但是自考穆登容老师在运营中获得的流水数量最多。

     六、结论

    通过以上分析,可以得出一些比较有意思的结论:

    1.自考学生带来了大量的流水,教师资格证带来了大量的学员人数。

    2.广东地区学员接收线上成人教育的接收程度较其他地区较显著。

  • 相关阅读:
    SpringMVC 使用JSR-303进行校验 @Valid
    Hibernate Tools生成注释
    大型网站架构演变和知识体系(转载)
    eclipse从数据库逆向生成Hibernate实体类
    性能测试公众号,欢迎你的加入~
    mysql使用druid监控配置
    (转)面试为什么需要了解JVM
    (转)什么是缓存击穿?
    Mysql推荐使用规范(转)
    java应用监控工具
  • 原文地址:https://www.cnblogs.com/cy344762694/p/14088305.html
Copyright © 2011-2022 走看看