HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
HITS算法是链接分析中非常基础且重要的算法,目前已被很多搜索引擎作为链接分析算法在实际中使用。
Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。
所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。
权威页面,比如导航站。
所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如5566首页可以认为是一个典型的高质量“Hub”网页。
hits算法基本思想,互相增强关系
一个好的网站,里面是有大量高质量的外链
一个好的枢纽页面,里面也是会有大量的权威页面的
可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。
跟集合
一个用户查询一个关键词,提交给了搜索引擎,从返回结果页面的集合取前N个网页,如200个,作为根集合(root set),记为 root 则 root 满足:
1、root中的页面较少
2、根我们查询的关键词是有相关性的
3、网页包含较多的权威页面
扩展集合
在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。
HITS算法与PageRank算法比较
1.HITS算法是与用户输入的查询请求密切相关的,而外链与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而外链必须结合内容相似性计算才可以用来对网页相关性进行评价;
2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高
3.权威站点数量较少,数量有局限
以上说法是比较专业的,详细的大家可以参考 规速 大神发布的文章: https://blog.csdn.net/hguisu/article/details/8013489
有站内的玩法和站外的玩法之分,站内和站外都是同样套路的,其实说白了就是在网站中做一个单向的友情链接,将自己的页面打造成一个枢纽页面,说白了就是直接在网站底部给自己做 友情链接(3-5个关键词,放在首页即可),同时还要加上别人的网站,如下所示:
别人的网站中记得要加上 nofollow 这样问题即可解决~~!