上下文定向
它是f(c)的标签,它与行为定向相似,也是对用户打标签,但它所打的是一个即时标签,但实现它的系统,是不可能做到实时的,我称它为一个Near-line的系统,意思是接近实时的系统。
要对上下文打标签,需要一个Key是URL,Value是特征的Cache。广告投放系统就通过URL从这个Cache中取得相应的特征。实现这个Cache与搜索中的爬虫有些区别,因为无法预先知道哪些页面会出广告,如果用爬虫就会做很多无用功。所以在初始化的时候,Cache是空的。下面举例说明。
图中的Cache有http://a...,http://b...,http://c...三个URL,每个url的Value是它页面所包括的关键词和标签组成的。假设一个用户访问http://a...,那么cache就会返回它相应的关键词和标签,如果用户访问url是http://d...,那么cache这次返回空,同时cache立即触发fetcher将页面抓下来,对这个页面进行分析,得到它的关键词和标签,这个过程只有几秒钟或是几分钟,下一次用户访问http://d...,cache就会返回它相应的关键词和标签了。这样的实现流程比较简单,只会处理有用户访问的页面。同时还要设置一定的失效时间,超过失效时间的页面会重新抓取分析。
其它的系统实现也可能进行更深入的一些挖掘,上面的实现方式只能使用自己页面的信息,而得不到其它网页Link到这个页所用的关键词信息,但这种实现就比较复杂了。