辨别虚假流量的十二种方法
1、使用高级群组分割流量
在检查前先要将这部分广告流量与网站的其他流量进行分割,高级群组是最好的选择。因为我们之前对流量进行过来源标记,所以只需要创建一个来源等于bluewhale的高级群组就可以分割出这部分流量了。如图1所示。
图1 过滤来自bluewhale.cc的流量
创建完成后,在报告中选择使用这个高级群组。这部分流量将会贯穿整个报告。这也是在检查流量前的准备工作。避免其他来源流量的干扰。
2、流量产生的时间
使用的Google Analytics报告:访问者—访问者趋势—访问次数。如图2所示。
图2 访问量变化趋势图
这里的时间要精确到每小时的访问数据。通常,网站正常的访问流量会分布在一天中的各个时段,即使有访问高峰,在曲线图中也会是较为平滑的曲线(广告刚上线时除外)。而虚假流量是人为控制产生的流量。为节省成本不会在意流量的时间分布,所以会在时间曲线上发现流量突增的情况。所以,如果流量过于集中在某个时段,或者在某个时段有了不正常的增长。这部分流量就可疑了。
当然也不排除有的程序会计算好日期和时间端,并按时间曲线模拟点击。如果碰到这种“智能流量”的情况,就要继续使用第三种方法。
3、流量的地理来源
使用的Google Analytics报告:访问者—地图覆盖图,如图3所示。
图3 访问量地理位置覆盖图
通常访问网站的访客会来自各个不同的地理位置(Google Analytics通过访问者的IP来判断流量来源的地理位置信息)。所以在地图覆盖图报告中可以看到很多不同地区的流量来源。而虚假流量通常很难使用多个地区的不同IP来产生流量。所以通过地区覆盖图来看,如果流量来源都集中在一个地区,这部分流量就很可疑了。
这里可能你的广告只针对某个地区的访客,所以访客的地理位置范围对你不适用。或者是你又遇到了“更加智能”的流量,比如,人肉流量!可以通过代理或者是分布在不同地区的兼职人员模拟出来自多个地理位置的访问。那么请接着往下看。
4、流量的网络属性
使用的Google Analytics报告:访问者—服务提供商,如下图所示。
图4 访问者网络接入报告
服务提供商报告显示的是网站访客所使用的网络接入方式,正常情况下网站访问者的接入方式应该是千差万别。而虚假流量的接入方式会很单一。所以如果这个报告里只显示了1-2种服务提供商名称,就说明你的流量很可疑了。但其实这里还是没有回答上面的问题,就是那部分超级智能的人肉流量。因为人肉流量的接入方式也会有很多种,在服务提供商报告里是无法识别出来的。那该如何辨别人肉流量呢?别急,这个问题很快就会有答案了。
5、流量的跳出率
使用的Google Analytics报告:访问者—访问者趋势—跳出率。
图5 跳出率24小时趋势报告
跳出率是衡量页面质量的指标,反过来看,也是辨别虚假流量的好工具。如果发现在某个时段网站的跳出率突然增高,找到那个时段的流量与前面的访次时间段,地理位置信息和接入方式综合对比。如果符合前面的任何一个条件,这部分时段的流量都非常可疑。
6、流量的网站停留时间
使用的Google Analytics报告:访问者—访问者趋势—网站停留时间。
图6 网址停留时间24小时趋势报告
网站停留时间其实并不是一个非常准确的指标,会受到cookie30分钟生存期的影响。但可以配合着前面的几个报告共同对可疑流量进行进一步验证。
7、进入路径&点击分布图
使用的Google Analytics报告:内容—热门内容—进入路径。
图7 访问者导航摘要报告
通常我们都会为广告活动制定一个登录页面 landingpage,所以广告的入口页面只有一个。但访问者来到网站后会有不同的行为,他们会点击不同的链接,访问不同的页面,并且在不同的页面结束对网站的访问。这些都是人为操控很难完成的。虽然现在的某些“智能流量”也能完成2~3次的点击行为。但都是通过预先设定的。所以它们的访问路径和结束页面基本相同。
8、与目标报告相匹配
使用的Google Analytics报告:流量来源—目标。
图8 流量目标转化率报告
这也是你在每次的广告活动前最应该做的。就是为流量设定目标。Google Analytics现在升级了目标功能。你可以为流量设定多个目标。通过多个维度来检查流量。目标的完成度是辨别虚假流量的最好方法。很多智能流量可以绕过跳出率,停留时间和访问时间分布等等指标,但很少有能够完成目标的。当然这也要依你设定目标的复杂程度来定。如果设定的CPA是完成购物,那么这对虚假流量来说就是一个杀手级的目标。如果目标只是注册用户或者是填写信息,人肉流量都是可以完成的。
9、单页面刷新分析
单页面刷新是指为了降低跳出率,流量在进入网站的Landingpage页面上刷新的行为。这类流量单从跳出率指标上来看表现很好,但却没有完成转化和购买。此时我们还很难判断这部分流量是否是作弊流量。需要通过访问路径或点击热区图进行深度分析。然而在面对多个Landingpage的情况时即使是路径或热区图分析也都变成了一个非常大的工程。因为我们可能要逐一查看流量在上百个Landingpage中的访问情况。 对于这个问题现在我们有个很好的方法来解决,就是使用自定义指标Pageviews/Unique Pageviews。
图9 使用综合浏览量和唯一身份浏览量对单页刷新进行检查
Pageviews表示页面浏览量,而Unique Pageviews则表示每个页面获得的唯一页面浏览量,相当于每个页面获得的访问次数。在一次访问中,用户多次浏览一个页面只会造成Pageviews的增加,而Unique Pageviews是不会增加的。因此,我们将不同的页面作为维度,使用Pageviews和Unique Pageviews两个指标相除就可以看到一次访问中访问者浏览同一个页面的次数。通常来讲,访问者在一次访问中是不会多次浏览一个相同的页面的。所以,如果如果Pageviews/Unique Pageviews的值很高,那么这部分流量就值得注意了。当然,这并不是一个绝对的标准。为了确保万无一失,最好的方法是将这部分流量的Pageviews/Unique Pageviews值与这些页面在整站中的值进行对比。
10、访客忠诚度分析
访客忠诚度是对一段时间内访客回访频率进行的分析。通常来讲,当一定数量的访问者来到你的网站后,总会有一部分访问者会再次访问的。即使这部分访问者非常少。哪怕只有一两个。这就好像在一个页面中,即使有些链接放在非常隐蔽的位置,也总还是会有人点击的,即使比例非常的少。记得一个真实的教训,我们为客户分析一个wap网站时,发现页面中的一个链接点击量是0。当时想当然的认为这个链接因为提供在线电影,流量和费用都很高,所以没人点击也是正常的。但实际情况却和我们想象的完全不一样。
因此,在分析一个渠道的流量时,适当的拉大时间维度来分析访客回访也是辨别虚假流量的一种方法。真实的访客中会有再次回访的行为产生,而虚假流量在合作结束后是不会进行这些收尾工作的。所以那些在合作期结束后齐刷刷没有回访的流量多半是异常的。
11、访客重合度分析
访客重合度是指一段时间里排重后的访问者与排重前访问者的比率。举个例子来说明一下,假设我每天找10个人点击你的广告,连续点击10天。这时,Google Analytics中每天都会记录到有10个绝对唯一身份访问者。十天加在一起就是100个。但当我们把时间维度拉大到10天再来看时,就只有10个绝对唯一身份访问者。这是因为Google Analytics对访客进行了排重处理,所以10天的数据中每个访问者都是唯一的。按照这个逻辑我们可以计算出不同渠道中访问者的重合度。具体计算公式是:1-排重访客/未排重访客*100%。对于上面例子中的情况,访客重合度等于1-10/100*100%=90%
图10 唯一身份访问者报告
对于不同的流量渠道,我们也可以使用访客重合度指标来辨别虚假流量。当某个渠道的流量在短时间内有较高的访客重合度时,我们就需要进一步检查这个渠道的流量质量了。
12、页面访问长尾分析
页面访问长尾分析是指访问者的页面浏览广泛程度。按照真实流量的特征,每个访问者的特点,兴趣和习惯都是唯一的。他们会按照各自的目标通过各种方法浏览网站内容。访问者的这些自然和多样的特点可以通过网站中的热门内容和退出页面看出来。如下图所示,这些都是虚假流量无法模拟的。
图11 访问者页面访问分布报告
热门内容是在整个访问过程中最受欢迎的页面。上图是网站中热门内容的浏览量趋势图。因为每个访问者的目的都不相同,所以除了最受欢迎的页面之外,还会有很多页面也会被浏览,并且大部分页面获得的浏览量都很少,只有1-2次。这些就是页面访问的长尾,他们充分的表现了真实访客浏览网站的自然性和多样性。同样,对于退出页面也必然会存在这样的长尾,因为访问者会在不同的页面结束访问。
辨别虚假流量的几种方法介绍完了,好像还是没有能完全辨别出虚假流量的方法。是的,虚假流量在不断的模仿真实的流量。并且人肉流量又是那么廉价。让我们防不胜防。单靠Google Analytics报告可以辨别出一部分虚假流量,更多的虚假流量要通过时间的检验才能够现形。比如在广告活动期过后,这部分流量的回访率,滞留率,等等。
作者简介
王彦平(蓝鲸),网站分析爱好者,蓝鲸的网站分析笔记博客作者,从事网站分析工作多年,擅长使用Google Analytics。希望探寻网站分析的真谛,以数据驱动决策。
吴盛峰(Joegh),网站数据分析博客作者,从事互联网的数据分析工作,曾经涉足过WEB网站的数据分析和移动互联网应用的数据分析,对数据仓库和BI(商业智能)方面也有一定的了解。擅长网站数据的定量分析,主要包括网站的内容质量、网站的用户行为、网站的用户体验优化等,希望将网站数据分析的结论应用于实践,并通过数据分析为网站创造价值。
本文节选自《网站分析实战——如何以数据驱动决策,提升网站价值》
王彦平 吴盛峰 编著
电子工业出版社出版