PageRank算法的思想

zoukankan html css js c++ java

PageRank算法的思想
基于胜率矩阵的PageRank排序
在做博弈模型评估的时候，遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C，两两之间对打之后有一个胜负关系，如何对这三个模型进行排序呢？通常对于人类选手这种水平有波动的情形，棋类比赛通常计算选手Elo得分按分值排序，足球篮球等通过联赛积分或胜场进行排序，但对于固定不变的AI模型，我认为用类似PageRank的方式计算更方便也更加准确。

这篇文章先从问题来源讲起，再讲解PageRank算法的思想，最后编程实现排序方法并指出一些需要注意的地方。

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例

一、问题来源

现在，深度强化学习更多的用在博弈模型的训练当中，比如围棋的AlphaZero，星际争霸的AlphaStar,DOTA的OpenAI FIVE。比如我们已经训练好了三个模型A，B，C，并且可以相互对打很多局，我们需要一个方法排出谁第一，谁第二。之前NeurIPS2019多智能体竞赛设计的排序方法就存在明显的bug,出现了A能胜过B，且A对C的胜率高于B对C的胜率，最后算出的排名却是B更靠前。主办方也承认了计算方式有缺陷并表示会在之后的比赛中修正，但是当前排名维持不变。

那为什么成熟的Elo值计算方式没有用在这类模型评估上面呢？Elo值通常用在围棋、象棋等棋类排名上，电子竞技例如英雄联盟等也可以认为是类似Elo的积分方式。这类问题的特点是

可通过一对一比赛得到一局的胜负关系，但和相同对手的对局次数有限，很难得到稳定的胜率关系。

玩家水平并非固定不变，可随环境、状态等因素波动（临场发挥），也可因长期训练/荒废而提升/下降（绝对实力）。

我们需要根据这种1v1(or 5v5)的每一局的胜负关系，给出所有玩家的即时能力大小排序。由于每个人的水平都会因为身体因素、年龄因素等产生波动，这和一个固定的模型是不一样的。而Elo可以根据每一局的实时对局结果立即更新当前排名，对棋类、竞技体育等的时效性需求非常适合，也可以较为准确的反应玩家的当前水平排名。虽然它也不是绝对的准确，不过已经是针对这类需求很好的排序方法了。

回过头来，对于已经训练好的AI模型，它的能力不会发生变化，并且我们可以通过足够多的测试得到两两之间的准确胜率关系，这种情况下我们如果强行套Elo的算法一局一局挑选对手对打，更新Elo值，再挑对手对打，再更新Elo值，就会显得没有必要(因为我们并不关心每一局后的实时排名)而且很麻烦，再者如果中途有一个新加入的模型需要从0开始评估，要想得到较为稳定的排名关系就会显得更加麻烦。

而PageRank的方法可以充分利用模型之间容易得到的稳定胜负关系，用矩阵迭代的方式计算出最终排名，简单且准确。

二、PageRank算法

算法思想

PageRank算法是Google发明用来做网页排序的，依据网页之间的链接关系对网页重要度进行排序。其主要设计思想如下

(1) 每个网页的初始重要程度相同,比如

(2) 如果许多网页

(3) 如果某个重要的网页

这个想法其实和paper的引用有相似之处，每一篇新paper刚发表,很难评价其质量，可以粗略认为paper质量都一样；如果有一篇paper被引用很多，那么这篇paper肯定质量比较好；如果某偏很好的paper引用了另一篇paper，那这篇被引用的paper也理应质量不错。

基于这三点主要思想，我们假定有a,b,c,d四个网址，其链接关系如图所示

首先根据思想(1),假定每个网页的初始重要度相同，比如都是1，则有重要度向量

$T i, j = {1, i f j \to i 0, o t h e r w i s e$

其中

$x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a$

同理有

$T i, j \leftarrow {1 \sum k \in { a , b , c , d } T k , j , i f \exists j$

此时，我们有

$x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a$

同理有

$x'' (a) = x' (a) \times T a, a + x' (b) \times T a, b + x' ($

同理有

$x = ⎛⎝⎜⎜⎜ 1 1 1 1 ⎞⎠⎟⎟⎟,$

那么前两次迭代可以表示为

$x' = T x;$

经过无穷次迭代

数学原理

如果我们把这个问题看作一个马氏(随机)过程，那么四个网页组成的向量

定理: 若马氏链不可约且正常返，则平稳分布存在且唯一。

不可约：通俗来说，就是每个状态都可以通过一步或者多步转移到达任意另一个状态。

正常返：可以理解为每个状态在有限步转移后再回到自己的概率为1。

如下图所示例子

从图中可以看出，

$x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0.1 0.2 0.3 0.1 0.1 0.2 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,$

状态转移矩阵为

$T = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 1 0 0 0 0 0 0 1 0 0 0 0.5 0$

则有

$x \infty 1 = T \infty x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 0 0 0 0.45 0.55 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,$

显然

三、实例分析

通过前述方式构建胜率矩阵，我们可以算得平稳分布，但还有一些实际问题需要微调算法。

对角线取值

在之前的网页排序里，对角线的元素被取为0，如果在胜率矩阵中也取为0，会出现错误的排序。假如胜率矩阵为

a b c a 0 0.2 0.9 b 0.8 0 1 c 0.1 0 0

其中

import numpy as np T = np.matrix([[0 ,0.2,0.9], [0.8, 0 , 1 ], [0.1, 0 , 0 ]]) for i in range(T.shape[0]): # 归一化为状态转移概率矩阵 T[:,i] = T[:,i]/np.sum(T[:,i]) X = np.matrix([1/3,1/3,1/3]) # 初始分布 X = X.T print(T) print(T**2000*X)

得到

T: [[0. 1. 0.47368421] [0.88888889 0. 0.52631579] [0.11111111 0. 0. ]] X： [[0.48579545] [0.46022727] [0.05397727]]

可以发现

a b c a 0.5 0.2 0.9 b 0.8 0.5 1 c 0.1 0 0.5

计算得到

T： [[0.35714286 0.28571429 0.375 ] [0.57142857 0.71428571 0.41666667] [0.07142857 0. 0.20833333]] X： [[0.31038506] [0.66161027] [0.02800467]]

可以看到，这个结果是合理的。同时这种方式还可以防止某一列出现全为0的情形。

构造不可约且正常返

通常我们需要考虑到各种胜负关系的情况，来保证平稳分布存在且唯一。假如胜率矩阵为

a b c a 0.5 1 1 b 0 0.5 0.3 c 0 0.7 0.5

可以看出

T： [[1. 0.45454545 0.55555556] [0. 0.22727273 0.16666667] [0. 0.31818182 0.27777778]] X: [[1.] [0.] [0.]]

可以发现

$E = ⎛⎝⎜⎜ 1 3 1 3 1 3 1 3 1 3 1 3 1 3$

其中权重参数

T = np.matrix([[0.5, 1 , 1 ], [ 0 ,0.5,0.3], [ 0 ,0.7,0.5]]) for i in range(T.shape[0]): # 归一化为状态转移概率矩阵 T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1/3,1/3,1/3]) # 初始分布 X = X.T print(S) print(S**2000*X)

得到

S: [[9.99333333e-01 4.54424242e-01 5.55333333e-01] [3.33333333e-04 2.27378788e-01 1.66833333e-01] [3.33333333e-04 3.18196970e-01 2.77833333e-01]] X: [[9.98694573e-01] [5.86177258e-04] [7.19249506e-04]]

此结果合理，且可以看出

完整代码及示例

最终代码封装为函数：

def pagerank(T): assert type(T) == np.matrix, 'please use np.matrix' for i in range(T.shape[0]): T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1]*T.shape[0])/T.shape[0] X = X.T score = S**200*X return score

我们给一个不太好肉眼判断的胜率关系如下：

a b c a 0.5 0.6 0.3 b 0.4 0.5 0.6 c 0.7 0.4 0.5

这里三个模型出现了相互克制的情形，即

score： matrix([[0.30789762], [0.34109655], [0.35100582]])

可得排序关系
查看全文

相关阅读:
STL之vector详解
 vim下使用YouCompleteMe实现代码提示、补全以及跳转设置
 Ceph之数据分布：CRUSH算法与一致性Hash
ceph之crush算法示例
 Js正则Replace方法
 JS框架设计之加载器所在路径的探知一模块加载系统
 JS模块加载系统设计V1
JS框架设计之模块加载系统
 Builder生成器(创建型模式)
JS框架设计之主流框架的引入机制DomeReady一种子模块

原文地址：https://www.cnblogs.com/Leo_wl/p/12891478.html

PageRank算法的思想

基于胜率矩阵的PageRank排序

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例