zoukankan      html  css  js  c++  java
  • Information Retrieval --- Web Search

    一、检索应用:采样、查重

    二、链接分析

    1.PageRank

    image

    一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。

    image

    image

    *随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有

    image

    2.HITS(Hyperlink-Induced Topic Search)算法

    image

    image

    一个网页被越重要的导航型网页指向越多,那么它的Authority越大;一个网页指向的高重要度权威型网页越多,那么它的Hub越大。

    计算过程:

    a.搜索的结果称为根集(root set);
    b.将所有链向种子集合和种子集合链出的网页加入到种子集合;
    c.新的更大的集合称为基本集(base set);
    d.最后,在基本集上计算每个网页的hub值和authority值 (该基本集可以看成一个小的Web图)。

    image

  • 相关阅读:
    SpringBoot-Swagger
    SpringBoot-Shiro
    SpringBoot-SpringSecurity
    SpringBoot-整合数据库
    SpringBoot-Web开发
    SpringBoot-基础
    SpringMVC-文件上传和下载
    SpringMVC-拦截器
    SpringMVC-AJAX
    Eclipse的安装
  • 原文地址:https://www.cnblogs.com/jizhiyuan/p/3477518.html
Copyright © 2011-2022 走看看