zoukankan      html  css  js  c++  java
  • [IR课程笔记]Hyperlink-Induced Topic Search(HITS)

    两个假设

       1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages.

        2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接。 

       注:循环定义

    算法过程:

      1.找出root set :用户输入一个query,根据query中的term,在文档集中找出包含至少一个term的的文档,使他们构成root set。

       2. 找出base set : 在root set的基础上,找出root set中网页链入或链出并且不在root set中的网页,并把他们加入到root set中,从而构成base set。

      3.计算每一个网页的hub score h(x) 和 authoritative score a(x). h(x) = x链出的网页的a值之和。a(x) = x链入的网页的所有h值之和。(初始时,所有h值和a值均为1)

      4.归一化。

      5.迭代直至收敛。

      6.选出top-n h值得网页作为 top hubs,选出top-n a值的网页作为top authoritives.

    与Page Rank 比较:

      1. 范围不同  HITS:base set     Page Rank:所有网页

      2. HITS:与query有关,online    Page Rank: 与query无关,off line

  • 相关阅读:
    ST (Sparse Table:稀疏表)算法
    P3379 【模板】最近公共祖先(LCA)
    AT1357 n^p mod m(洛谷)
    poj2018 Best Cow Fences
    P1024 一元三次方程求解
    poj2456
    poj1064
    P2047 [NOI2007]社交网络(洛谷)
    poj1734
    洛谷P2886 [USACO07NOV]牛继电器Cow Relays
  • 原文地址:https://www.cnblogs.com/leeshum/p/4925543.html
Copyright © 2011-2022 走看看