zoukankan      html  css  js  c++  java
  • 论文--Topic-Sensitive PageRank

    背景

    • 原有的PageRank方法:通过web上链接结构信息得到页面之间相对的重要性,和特定的查询内容无关

    论文涉及到的其他算法

    1. HITS
    2. Hilltop,处理常见的流行查询 popular query
    3. 基本的PageRank算法,我们使用如下迭代来计算ranks得分$$forall{v}Rank_{i+1}(v)=sum_{uin{B_{v}}}Rank_i(u)/N_u$$直到rank向量达到一个稳定的阈值

    论文关注点

    • 选取与查询相关的多个话题的PageRank向量集合,通过计算得到一个更精确的与特定话题相关的查询结果,每次都给各个页面赋予一个和此特定话题相关的得分
    • 新方法保证了基于链接的评分与查询挂钩,并且有较小的实时查询处理时间
    • 利用Open Directory和一元语言模型来对话题进行表示
    • 我们可以从各个维度来得到某个用户某个查询q的context,譬如说查询历史记录,层次目录结构,用户保持的书签等。

    论文研究方法

    概要:每个页面都有一个得分的集合,针对每一个特定的topic
    步骤:
    1. 找到一系列基本的topic集合,计算出一系列的PageRank Vectors。基本的类集合是从ODP数据集中得到。
    2. 第二步是在查询时进行的。 1). 首先确定查询q的上下文q'(分为两种情况); 2). 计算得到每一个类在q'下的条件概率$$P(c_j|q')$$(利用贝叶斯公式);在使用$$P(c_j)$$时可以根据用户而决定特定的值 3). 对于每个文档d,我们可以计算他的query-sensitive得分 $$s_{qd}=sum_jP(c_j|q')cdot{rank_{jd}}$$

    实验结果


    数据来源:the latest Web crawl from the Stanford WebBase, 2001

    4.1 Similarity Measure for Induced Rankings

    评价指标:$$OSim( au_1, au_2)$$,衡量两个方法之间的URLs的重复的多少 Kendall's $$ au$$ distance measure: is the probability that $ au_1'$$ and $ au_2'$$ agree on the relative ordering of a randomly selected pair of distinct nodes $$(u,v)in{U imes{U}}$$

    4.2 Effect of ODP-Biasing

    研究了主题的选择以及bias factor $alpha$ 对rankings的影响 1. $alpha$的选择对评分的结果不是很sensitive 2. 应用不同的topically-biased PageRank vectors到同一个查询,结果相差较大

    4.3 Query-Sensitive Scoring

    我们研究了如何高效的利用PageRank Vectors来提高ranking precision 对于每个方法采取Top10个结果,并组织5个志愿者人工判定,结果表明topic-sensitive PageRank方法的结果比原有的PageRank方法好很多

    4.4 Context-Sensitive Scoring

    通过query term的上下文来决定使用的topic PageRank vector 基于context的查询方法有更好的返回结果,返回内容大都跟query term的具体意义相关

    未来计划

    提高改进页面和话题之间权重得分的计算方法,分别在独立的或者同IR评分结合的两个角度进行评价  
  • 相关阅读:
    Java面试:用set集合的时候,重写过hashcode()和equal()方法吗?有什么作用?
    Bootstrap起步
    Java NIO
    Dobbo和SpringCloud区别
    Java虚拟机类加载机制和双亲委派模型
    继承和组合的特点和区别
    LinkedList和ArrayList底层原理
    聚集索引和非聚集索引
    Stream和迭代器的区别
    悲观锁和乐观锁
  • 原文地址:https://www.cnblogs.com/No-body/p/4207223.html
Copyright © 2011-2022 走看看