pagerank:链接分析
如同图谱的网络
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231849260-1198580018.png)
每个网页相互链接,是一个有向图,强连通分量
设计一个计算十堰,找到给定节点的输入与输出成分(?)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231849659-97659774.png)
节点:网页
边:超链接
次要问题:动态页面如何解决?暗网——无法直接进入的网页
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231850181-664535778.png)
网页的现状:不一定通过导航链接,而通过交易事务(?),例如邮件,评论,评论,点赞,购买等
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231850643-599842605.png)
是一个有向图
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231851031-567552967.png)
其他类型的信息网络:如引用网络,百科中的引用
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231851531-1755250231.png)
In(v) OUT(v)的定义:通过输入或输出关系可以接触节点v的节点集合
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231852013-2061469803.png)
有向图的推理
有向图的两种类型:
1)强连接(任意两节点间相连)
2)邮箱无环图
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231852505-1660701186.png)
强连通分量:任意两节点有通路
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231853021-1891253936.png)
事实上,每一个有向图在他的SCCs上都是有向无环图,也就是说,如果把一个图中的连通分量看成一个节点的话,那个这个虚拟的新图就是一个DAG
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231853443-547533194.png)
网络的结构:![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231854019-1924847273.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231854019-1924847273.png)
一个节点的In(v)和Out(v)的交集,是一个强连通分量,同时=Out(v,G)与Out(v,G‘)交集,G'是指G中所有边的方向翻转后得到的图
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231854635-855937115.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231855065-109580561.png)
对于网页网络而言,计算其输入与输出分量
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231855511-1327077348.png)
结果
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231855973-432449146.png)
蝴蝶结结构
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231856424-781415400.png)
网络的pagerank
对网页的重要度进行排序——基于网络结构![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231856806-2121983530.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231856806-2121983530.png)
链路分析算法
§ PageRank
§ Personalized PageRank
§ Random Walk with Restarts
将链接看成投票,网页越重要,则有更多的链接
但是,每一个链接都一视同仁吗?
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231857187-1027057756.png)
从重要网页来的vote更具价值
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231857541-822146079.png)
当一个节点被其他重要节点指向时,这个点变得更重要
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231857957-143198544.png)
矩阵公式
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231858408-2102293179.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231858890-332231425.png)
矩阵的特征向量M=pagerank
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231859345-1841449818.png)
迭代方式
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231859861-1438538870.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231900356-1843360485.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231900825-1128119758.png)
pageRank的解方程
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231901256-1431945355.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231902063-570721133.png)
3个问题:
是否收敛;收敛结果是所需求的吗?结果合理吗?
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231902474-1718303986.png)
还有两个问题:
有些网页没有出度
有些网页是搜索陷阱,即所有的链接都在组内
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231902940-1829105830.png)
对于上面的两个问题,那么,他会收敛吗?![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231903340-2116539772.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231903340-2116539772.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231903656-1673832753.png)
解决方案:
在每一次迭代,以某个概率随机链接?
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231904077-1652363532.png)
对于teleports,没有出度的,在矩阵中使其出度的概率为1
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231904537-329829314.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231905010-1417327928.png)
google的解决方案
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231905550-1869096185.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231906118-1483374596.png)
例子:
如何实际计算pagerank
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231907004-1316913149.png)
当节点多的时候,占用空间大
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231907438-1626688813.png)
通过稀疏矩阵的分解
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231907937-1542727099.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231908453-1899471351.png)
例子:
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231908982-1199741956.png)
随机游走的restart以及个性化的pagerank
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231909406-254833058.png)
应用例子:图谱检索
给定:作者与会议的关联网络
目标:图谱中的相似衡量
如:与ICDM关联度最高的会议是?我们应该推荐某个人参加其他哪类会议?
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231910229-903807350.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231910586-712907681.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231910927-244439153.png)
1) 图谱和网页检索:对节点基于重要性排序
2)个性化的PageRank:将节点与teleport node s的亲近度进行排序
3)图中的亲近度: 例如与ICDM最相关的是?重启动的随机游走,启动点位teleport node
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231911382-1945261674.png)
如何 random walk
1)从查询点出发,随机游走,并记录每个访问到的点
2)以概率α,多次随机游走
3)访问次数最多的点,即为最相近的点
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231911988-4016350.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231912549-1132017753.png)
益处:
考虑了:多链接;多路径;有向和无向的连接;节点的度
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231913927-1030746124.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231914258-2132436518.png)
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231914634-16262412.png)
pagerank总结:
![](https://img2018.cnblogs.com/blog/985935/202002/985935-20200206231915061-1424743025.png)