zoukankan      html  css  js  c++  java
  • 阿里音乐预测小结2——艺人周期规律

    根据小结1,用复赛数据对艺人分类为高播放量(前23名)艺人和低播放量艺人:
    以08均值最高的艺人1b322374de83520bf45aa8928e18e70a为研究对象
    选择7、8月画出时序图,除了7月初(7月7日)前,之后基本是平稳的。
      按每周7天计算每月平均播放量如下,可以发现这个分布规律与工作节假日规律相关
     
    根据之前金陵书生提供的听歌年龄分布,大概在25到31岁所占比重最大,这类人大部分是上班族,因此每日听歌习惯就是和上班习惯挂钩,符合如下上班族规律:
    周1,2好好工作精神饱满
    周3、4疲劳成极写不进去
    周5快要节假再恢复精神工作一点
    周6、7逛街玩耍休息Hi起来

    根据上图,由于大部分人听歌是用来放松的,也就是说最疲劳的时候(周三)最需要放松,此时听歌人数剧增,而周6、7节假日相对放松活动选择很多,听歌人数反而不多。这个就是上个小结观察出来的每日用户人数的周期规律。而至于人均点播量规律,这个周期性不强,主要在于是否是粉丝用户。由此可以按照工作日和节假日来区分,很明显7、8月每个月都是节假日要比工作日低一些:
     接下来,画出3月到8月每个月的工作日和节假日对比图,可以发现每个月工作日之间节假日的差值是不同的,比如3月的工作日和节假日基本持平,4、5、6月基本一致,7、8月基本一致,这是为什么?
     分析:画出它从3到8月时序图如下,发现3月上升,4、5、6月基本平稳,6月末陡升,7、8月在新略升高的地方平稳,总体趋势在7、8月后有升高一个小台阶。按照常理节假日总是比工作日高,但是当某个月(3月)是攀升阶段(点播量上升),则节假日的播放量可能会大于等于工作日,而当某个月(4、7月)出现剧增现象且数值还不算很大,此时单个剧增并没有影响工作日大于节假日。
     



    • 正例:用排名第3的艺人2dc8d3a917b12e65d4695e2277dd4943对应的图表验证以上分析,分别画出时序图和每月工作日、节假日平均播放量:
    从图中看出每个工作日的播放量都小于节假日,其中5月最明显,而6月工作日节假日基本一致
     分析时序图发现,3、4月在攀升,5月有陡升,且值非常大,6月开始下降,降到月末,7月缓慢升,8月缓慢升。因为每个月基本都在攀升,因此节假日大于工作日,而6月有下降工作日节假日基本一致了。


     
    • 反例: 用排名第23的艺人9ff7ca7b2c9e53902ac956da5cb5bcda对应的图表验证以上分析,分别画出时序图和每月工作日、节假日平均播放量:
    从图中看出每个工作日的播放量都小于节假日,其中4月最明显,而6月工作日节假日基本一致
     从时序图看出3、4月在攀升,且4月出现陡升值,但是月末降低,5月攀升,6、7、8各自平稳
    再看它的月按周统计播放量:发现反常尤其是在7、8月平稳时依然是周日最高,这有可能是歌手的音乐适合周末听,比如旅行听的豪放一点的歌。考虑重新对歌手按工作日和节假日比例进行分类。


     出现反例,此时有必要重新考虑对艺人分类,分类方式按照工作日和节假日规律进行:在算法平台使用k均值聚类对100个艺人6个月工作日、节假日均值以及比例数据(表:ly_weeks_percent)进行分类,结果如下,基本是对半分类。其中聚类1index=0;聚类2index=1.
    这个第二类就是明显的值聚在了一起!(53个数据)
     
     聚类后并没有用上。
     


     
     




  • 相关阅读:
    常用正则表达式
    用Python开始机器学习(2:决策树分类算法)
    Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)
    如何成为python高手(转)
    scikit-learn——快速入门
    程序员训练机器学习 SVM算法分享
    应用scikit-learn做文本分类
    sklearn文本特征提取
    中文分词入门之字标注法4
    poj 2965 The Pilots Brothers' refrigerator(dfs 枚举 +打印路径)
  • 原文地址:https://www.cnblogs.com/xuancaoyy/p/5822680.html
Copyright © 2011-2022 走看看