Understanding the Characteristics of Internet Short Video Sharing: YouTube as a Case Study
视频的种类
该研究从2007年2月22号开始抓取了五天的小视频。包括最新推荐、最多观看、排名最高、讨论最多的视频。对于一个视频会抓取与之相连接的其他相关视频(以及与相关视频相连接的视频等,一共抓了6层数据)
在12个大门类中间发现数量最多的是音乐类,占了22.9%,其次是娱乐类,17.8%,第三是喜剧类,是12.1%。
以下是各门类视频的数量
小视频的时长有三个峰
因为YouTube刚开始限制了非会员能上传视频的长度,所以97.8%的长度是小于600秒的。
但是可以看到存在如下图的一个趋势,视频存在三个长度类型
第一个高峰是1分钟左右的视频,量是20%;
第二多的是3~4分钟之内的视频,占了16.7%(这部分主要是音乐视频);
第三高峰是10分钟左右的,这是因为很多长视频被截成了几个短视频而被上传。
娱乐类节目的时长分布跟大盘是一致的;但是喜剧和体育类的都是长度在2分钟以内。
三个峰值的分布
视频的排名
发现视频的排名和它的观众数并不遵守齐夫定律。
齐夫定律是一个跟排序有关的经验法则,如果一个视频排名升高一个名次,所增加的观众数是成倍增加的。
比如他表示的是一篇长文章中,最频繁出现的单词的出现次数跟它在所有单词中排名的关系。比如英文中,the,of,and是排名前三的最常见的英文单词,the出现的频率为7%的时候,他就是排名第二位的of出现频率(3.5%左右)的2倍,排名第二位的of又是排名第四位的单词的2倍。总之,就类似二八定律,看得人越多的视频的观看数量是排名不如他的视频的2倍以上
Youtube的视频排名分布是会有一个断尾效应的,也就是说即便是排名很低的视频,它也可能具有一定的观众数(Weibull或Gamma分布的拟合更好)
单个视频的观看数的增长趋势可以用幂定律拟合出来
一个视频是有其生命周期的,只有很少一部分视频才会有很高的观看数。
假设一个视频的增长趋势是稳定的,那么他的增长趋势因子p=1,增长趋势越来越强的话p>1,越弱的话p<1
如下图就会发现,增长因子低(横轴上小于1)的视频是占了所有视频的70%的。
大量的视频的生命周期很短,他们会在一个很短的期间内被大量观看,然后就很少会有人去看了
可以设定一个值t(生命周期因子),如果某个视频在某个礼拜的收视数比前一个礼拜收视数的增长量要低于t这个值,那么就宣告该视频生命周期结束。
也就是说一个视频逐渐没人看了,新增的观众越来越少,如果这个新增观众数小到一定程度的时候,就可以把它下架了。
假设说我们把t设置为10%,即后一个礼拜的收视数量的增长仅仅是前一个礼拜的10%。可以用帕累托分布得到下面的拟合。纵轴表示每个视频(点)集中观看的次数?
youtube上视频之间的关系是符合小世界理论的
类似于六度分离(现在实际上平均只需要4点几个人)
如果一组视频之间的联系很紧密,那么看完一组视频中的一个视频之后有非常大的可能性去看另一个
所以可以由此改善观感,即看了某个视频的时候,就可以让浏览器缓存同类中的其他视频了,以供随后的观看