2013,给自己的评分是不及格;2014,总算是步入正轨。
1月,感谢老严
向老大提了不想做产品而想专心做数据的想法,非常幸运地被批准了。真的非常非常感谢老严,从此我得以开始拼命地学习。当然,一开始的时候是十分盲目的,比如这个月我从关联分析和聚类算法切入,开始研究数据挖掘。同时学习了一款叫orange的数据挖掘软件,就开始吭哧吭哧地结合业务数据想做出些成就了。结果当然挖掘出没什么意义的信息。
2月,尝到甜头
1月算是把数据挖掘中两个很难产出漂亮结果的两个坑给填了,2月开始研究了分类相关的算法。硬着头皮,半知半解地看完了决策树、朴素贝叶斯、人工神经网络、SVM和一些组合分类器(如:随机森林)给看了个遍。然后用了最简单的决策树做了一个游戏大户预测模型:利用用户进入游戏后前一周/前二周/前三周的表现,预测两个月后他的充值能否达到我们的大户标准。最终和业务人员深入沟通和自己仔细观察了数据特点后算了几个比较特别的feature,在测试集上用交叉验证准确率和召回率都能达到70%以上。对于一个自己鼓捣的菜鸟来说真是感觉美滋滋的,当然,我们公司的业务人员以及高层对数据和模型的认知不足,最后没能马上应用到游戏联运部门的日常工作中去。 对了,2月的前半个月我去了趟美帝,和金门大桥合影、逛了硅谷、在三藩市参加了一场hackthon、沿着1号公路从三藩市自驾到LA、在LA看了人生第一场NBA现场比赛(快船VS开拓者)。
3月,恶补统计学
虽然2月的研究小有成就,但很明显地感觉到自己欠债很多,半知半解地去用机器学习太危险了。再加上步子迈大了容易扯着蛋,业务人员比较容易接受的是“可解释”的研究成果。于是我开始恶补最基础的统计学,从最简单的描述性统计开始复习,一遍一遍地去理解区间估计和假设检验,接着看了著名的回归以及方差分析。同时,顺便也把SPSS给学习了一下,于是开始通过假设检验来更合理地对比我们电商部门的不同商品发布策略。
4月,躲不过的sql
其实,之前用于研究的很多数据都是由同事帮我整理好,我通过MySQL做一些简单的加工,就把他们放进统计/数据挖掘软件中进行研究。这样确实效率低下(没法一条龙服务就是会不舒服),于是终于狠下心来好好弥补了一下sql的知识,这里也非常感谢身边小伙伴sql大神们的帮助,能够自如运用Hive QL从hadoop中把用户日志取出加工再计算后才感觉自己真的是干“大数据”的了。另外,这个月配合公司最重要的一个业务部门完成了一份长篇研究报告,虽然没有用到什么高级的模型,但是得出的结论得到了业务方的认可并且看到业务方在借鉴报告中提到的建议进行运营上的优化确实令人欣慰。对了,也是从这个月开始意识到一个问题:“统计学上告诉你两个样本代表的总体是显著差异的,但是两个样本的平均值只差1个百分点不到,那么是不是即使优化了对业务的提升也只是一个百分点不到呢?”这是老板的原话……
5月,R语言
前几个的学习中,在微博与豆瓣上关注了不少学习统计或者机器学习的前辈,发现大家不约而同地反复提到R语言的使用。因此,下定决心开始学习R语言。在这个月的25~26号,还去了趟北京,参加第七届R语言大会。带着满满的问题,混进了R语言大会的晚宴,向统计之都的元老们请教了工作上遇到的问题,收获颇丰。——印象最深的一句话是:如何说服运营人员?直接PK算法产出的方案与运营人员人为决定的方案,哪个效果好一目了然。
6月,知识补全计划
之前列了一个知识补全计划,发现统计学相关的知识还剩下一块:随机过程/时间序列没有了解过。于是任性了一把,自学了时间序列最基础的ARIMA模型,然后对我们电商业务每周的淘宝客收益进行了建模,并分析淘宝客收益下降的因素。然而,最终几乎没有结论……
7月,shiny
上个月挖的坑不能不管,由于从总体的时间序列模型上看不出收益下降的端倪,于是转向研究不同类目商品的销量与收益变动情况。然而,阿里淘宝客的后台故意做了限制,不给商品的分类,所以通过商品名称对几十万件用户下单商品进行分类成了主要问题。我想到的简单粗暴的解决方案是:每个商品标题中都会有一个可以反映商品类目的关键词,“法国羽绒混弹力风帽夹克衫”==>“夹克衫”==>休闲服饰,我们只需建立一个关键词与商品类目对照库即可通过商品名称对商品进行分类。所以,我用R语言中的Rwordseg包对商品标题进行分词,并展示分词结果给运营人员参考,然后运营人员手工填写商品对应的类目,而这个关键词-类目对照库的填写后台是用完全基于R的shiny框架开发完成的。最终,我们的词库覆盖到了98%的商品分类,并且在95%的置信度下接受分类准确率为99%左右。
8月,电商报告
上个月顺利完成了商品分类,于是紧接着利用分类结果进行了各项统计分析,最终定位了出问题的类目,完成了一份十分详细的报告。6月挖的坑8月才得以搞定,以后真不该这么任性……另外,从这个月开始我也被要求做运营人员提出的数据查询需求了(就是在hive里写job,每天跑一次,感觉十分浪费生命)。
9月,基于R的推荐系统
5月参加R语言大会时与统计之都的前辈交流的话依然印象深刻,很不希望自己作为数据团队的一员成为产品业务团队的附属,大部分时间花在数据查询,或者撰写业务人员不太采纳的数据报告上。于是,开启了制作推荐系统的计划,由于当时团队里没有空闲的开发人员,而自认为已经熟练掌握R语言了,于是决定用R语言自己开发一个推荐系统。准备好了理论知识(项亮的《推荐系统实践》),就开始动工了。然后……被R语言的内存问题虐得体无完肤,利用这个机会熟悉了mapreduce,但是rmr包也是一个没怎么被维护的大坑。
10月,Q4专项合作
由于之前我的好几个专题研究都是围绕电商部门展开的,所以领导们就决定派我做代表入驻电商部门进行专项合作,而之前基于R的推荐系统计划也搁浅了。专项计划刚开始,业务部门的老大拉上我一起商量,我也得到了明确的信号:最体现工作成绩的事是通过数据直观地体现到收益的提升上。话虽这么说,可我不断地接到业务上的查询需求,俨然被当成了高级智能计算机来使用。前半个月在协助进行用户调研,后半月开始为即将开展的双十一备战。
11月,双十一和新的希望
11月的前十天,我进行了“挣扎:各种熬夜,在最短的时间里完成了一个双十一精选商品推荐的广告位(在团队里最靠谱的前端小伙的协力下),然而由于时间过于仓促,只利用了最热门推荐的方法,而来不及用用户点击数据的反馈来优化模型,最终效果并不理想。于是双十一之后,还是冷静下来先把电商用户好好研究研究。结果就是发现每个月100多万的UV,其中70%上个月没访问过,70%下个月不回访;另外新用户的跳出率也十分严重。看来产品业务上的问题还是挺多的,也许通过简单的方法就能实现提升收益的目的。
12月,修成正果
延续着上个月的研究,最终将优化方案锁定在了落地页优化上,开发人员花了3分钟完成了一个流量切分的AB TEST工具,而我督促广告排期人员按照我制定的对比方案进行了广告投放。最终优化后的方案比原来常用的方案能够多贡献50%的购买点击,算是顺利完成了Q4专项合作制定的目标,也受到了老大们的表扬。 无论如何,14年是飞速进步的成功的一年。