zoukankan      html  css  js  c++  java
  • PageRank

            Page Rank算法似乎是由现Google CEO拉里佩奇提出的一种计算网页重要程度的算法。直观来说是以投票的方式来确定网页的重要程度。一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的Page Rank是由所有链向它的页面的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。

            值得注意的是,每个页面对于外链的投票总共只有一票,当他有两个外链的时候,他的每张票需要乘以1/2,以此类推。这是投票时候的小规定吧。

            同时Page Rank为了处理网页没有外链的情况,还引入了随机浏览阻尼系数的概念。随机浏览就是说用户是随机地打开一些页面,访问一些链接,当遇到没有链接的网站的时候,用户会打开一个新的网页继续进行访问。

            而阻尼系数d就是指用户到达某一页面后继续向其外链进行访问的概率。而1 - d就是用户跳转到新的URL上的概率。一般d取0.85,至于这样取值的好处曾经有过论证。

            PageRank的值如下所示

          

            其中M为入度,L为出度,N为页面总数,(1 - d) / N是Page Rank的最小值,也就是没有外链连入的页面的Rank。

            不过这种算法缺点非常明显, 新的页面的入度肯定不如以前的页面大,导致页面的评分会比存在很久的页面的评分要低很多。不过影响不大。这种方法非常简单就可以理解。那如何把这种算法应用在关键词萃取上呢,这就需要我们的Text Rank算法了。

    链接:http://blog.csdn.net/cecesjtu/article/details/37912911

    个人理解:

    网页pi的重要性,即有多少可能用户可以访问到这个网页,访问这个网页的可能性=用户不利用链接直接访问这个页面的可能性+利用其他网页中的超链接访问到这个页面的可能性

  • 相关阅读:
    Java Web 网络留言板2 JDBC数据源 (连接池技术)
    Java Web 网络留言板3 CommonsDbUtils
    Java Web ConnectionPool (连接池技术)
    Java Web 网络留言板
    Java Web JDBC数据源
    Java Web CommonsUtils (数据库连接方法)
    Servlet 起源
    Hibernate EntityManager
    Hibernate Annotation (Hibernate 注解)
    wpf控件设计时支持(1)
  • 原文地址:https://www.cnblogs.com/guo-xiang/p/4873577.html
Copyright © 2011-2022 走看看