- XGBoost https://www.cnblogs.com/jing-yan/p/12379879.html
- GBDT和XGBoost的区别https://www.cnblogs.com/jing-yan/p/12533297.html
- 随机森林和GBDT比较https://www.cnblogs.com/jing-yan/p/12549318.html
- bagging 和boostinghttps://www.cnblogs.com/jing-yan/p/12549377.html
- 梯度上升和梯度下降https://www.cnblogs.com/jing-yan/p/12533254.html
- K-meanshttps://www.cnblogs.com/jing-yan/p/12532493.html
- 逻辑回归
- 逻辑回归与线性回归的区别http://blog.sina.com.cn/s/blog_537ed51201019gu1.html
- 随机森林优缺点和调参 https://blog.csdn.net/yingfengfeixiang/article/details/80210145
- 决策树的优缺点&ID3、C4.5和CART区别 https://www.cnblogs.com/jing-yan/p/12549189.html
- 正则化系数 https://www.cnblogs.com/jing-yan/p/12532596.html
- 样本不均衡问题https://www.cnblogs.com/jing-yan/p/12335150.html
- 数据分析步骤https://www.cnblogs.com/jing-yan/p/12532509.html
- 缺失值和异常值处理 缺https://www.cnblogs.com/jing-yan/p/12337600.html 异https://www.cnblogs.com/jing-yan/p/12337638.html
- 数据库与数据仓库https://www.cnblogs.com/jing-yan/p/12548640.html
- 模型评价指标https://blog.csdn.net/kdongyi/article/details/82930913
- 什么是准确率、召回率,它们和ROC曲线有什么关系?https://www.cnblogs.com/jing-yan/p/12548859.html
- 最小二乘法&极大似然估计 https://www.cnblogs.com/jing-yan/p/12551095.html
- 数据异常分析 https://www.cnblogs.com/jing-yan/p/12551848.html
-
10、空间的数据怎么分析(难题)
上面的分析大都是统计维度的,其实最简单的描述就是求和或者平均值等,这个时候问题来了,大数据量的空间数据如何分析呢?对于我们电子商务而言,空间数据可能就是海量的收货地址数据了。需要做分析,第一步就是先要把经纬度添加到数据中(如果添加经纬度,这个可以搞http的请求来通过地图服务提供商来或者,或者是根据测绘公司的基础数据来进行文本切割分析),之后空间数据是二维的,但是我们常见的代数是一维的,这个时候一个重要的算法出现了,geohash算法,一种将经纬度数据转换为一个可比较,可排序的字符串的算法。然后,这样就可以再空间距离方面进行分析了,例如远近,例如方圆周边等数据的分析。
- 流失预测:课程完课率,作业评分、出勤率、未作题、作业正确率、教师评分、学生评分、近七天15天上课次数、价格敏感指数、复购频次
- 人群画像:
用户相关:最近登录时间、历史订单金额 购买频次、城市、年龄、性别、登录频次、平均登录时长、购课次数、分享次数、点评次数、积分数
课程相关:价格、 用户评分、点评数、课程类别、
- 指标:
通用指标:每月活跃用户数、每月新增 App 用户数、各渠道销售额增长总览、本月销售目标完成率、各课程月销售额、各课程销售热度、用户粘度转化率、各课程支付观看率。
课程付费指标:课程销售量、课程购买用户数、课程销售总额、各课程销售页预览量、各课程销量、课程付费转化率、试听引导成单率、各课程退课订单总金额。
课程反馈指标:学习任务完成情况、课程学习完成程度、各教师受欢迎程度、各课程人均学习时长、课程学习频次分布、各等级学员学习时长分布、退课率。复购率
- 其他业务分析:(目标客户的特征分析:整理分析出该产品的核心目标用户特征分析报告)、付费预测模型、续费预测模型、运营活动响应模型、课程曝光到试课的转化率、试课到购买的转化率
- 数据分析方法:假设检验、回归分析、漏斗分析、多维分析、对比分析等。
- 处理得数据量7000万
- 完课率:完成课程内容占总课程内容的比例
- 问题面试官(数据来源 工作职责 公司期望)