zoukankan      html  css  js  c++  java
  • PageRank_网页排名_MapReduceJava代码实现思路


    PageRank

    1.    概念

    2.    原理



     

     

    3.    java代码实现思路

     
    1、定义收敛标准
        每次算出新的pr-oldpr=差值 ,所有页面的差值累加 ,除以pagecount,得到avg差值 ,如果。小于0.01
    2、计算总页面数,并且算出每个页面的初始pr值=1/pagecount
    3、
        A  0.25 B  D ----- A  0.35 B D--- A  0.29 B D----
     
    数据集:
     
    一个MapReduce(如何做到循环)
        1. Job的设计
               定义一个收敛值d=0.01,一直循环进行MapReduce操作,当所有页面和上一次计算的pr差值平均小于该标准时,则收敛,跳出循环
    1. boolean flag = job.waitForCompletion(true);
    2. if(flag){
    3. System.out.println(job.getJobName()+" run success");
    4. //获取计数器中的差值
    5. long sum = job.getCounters().findCounter(Mycounter.my).getValue();
    6. System.out.println("SUM: "+ sum);
    7. double avg = sum /4000.0;
    8. if(avg < d){//满足设定的值,跳出循环
    9. break;
    10. }
    11. }
               统计计算的次数iconf.setInt("runCount"i);便于从上一次的输出中读取数据
                     inputPath和outputPath的设计
    1. Path inputPath =newPath("/user/pagerank/input/pagerank.txt");
    2. //如果不是是第一次计算
    3. if(i >1){
    4. inputPath =newPath("/user/pagerank/output/pr"+(i-1));
    5. }
    6. FileInputFormat.addInputPath(job, inputPath);
    7. Path outputPath =newPath("/user/pagerank/output/pr"+ i);
    8. FileSystem fs =FileSystem.get(conf);
    9. if(fs.exists(outputPath)){
    10. fs.delete(outputPath,true);
    11. }
    12. FileOutputFormat.setOutputPath(job, outputPath);
                     
        2. Mapper的设计
          Mapper端数据的输入--key:Text   value:Text   key:A   value:B   D
                 (job端在进行Mapper操作之前,将数据进行了格式处理job.setInputFormatClass(KeyValueTextInputFormat.class);key,value转化为Text格式)
     
          步骤一:获取运行的次数,判断是否是第一次进行map操作,如果是第一次,赋予1.0默认值,然后将value(1.0    B    D)封装为Node对象
          步骤二:将计算前的数据进行输出,key:A    value:1.0    B    D context.write(new Text(page),new Text(node.toString())
          步骤三:如果网页有出链,计算对当前page,对其他网页的出链值key:B    value:0.5  ||  key:D    value:0.5
          
          Mapper端数据的输出:
                                                 第一种--key:A    value:1.0    B    D
                                                 第二种--key:B    value:0.5  ||  key:D    value:0.5
                
        3. Reducer的设计
            Reducer端数据的输入--第一种--key:A    value:1.0    B    D   第二种--key:A    value:0.5  ||  key:A    value:0.75
            
            步骤一:遍历Iterable<Text>对象,里面有两种数据(value:1.0    B    D  ||  value:0.5
                           无论哪种数据,首先将value转化为Node对象,其次,如果是前者将该node定义为上次的node(sourceNode),否则,获取该node的pageRank(其他网页对该page的投票值),进行sum累加(sum的最终结果也就是本次计算其他page对当前page的投票值总和),比如页面A本次一共获得1.25来自于其他页面的投票
             步骤二:计算新的pr值double newPR = (0.15 / 4.0) + (0.85 * sum);并与之前的也就是上一次的pr值进行比较(上一次的pr值存放在sourceNode中)double d = newPR - sourceNode.getPageRank(); 将差值结果放到累加器中
    context.getCounter(Mycounter.my).increment(j);
             步骤三:更新page上一次的pr值--sourceNode.setPageRank(newPR);
             步骤四:数据输出,key:A    value:1.25    B    D--context.write(key, new Text(sourceNode.toString()));
     

     
  • 相关阅读:
    记intouch SMC local下驱动丢失问题解决
    随机变量的频数分布图
    Clonal hematopoiesis of indeterminate potential(意义不明的克隆性造血)-CHIP
    聚类热图
    linux把软件安装到指定目录
    Phred-scale quality scores的相关内容
    GATK的硬过滤
    VCF和GVCF格式说明
    非root权限 安装更新gcc
    在非小细胞肺癌中,MET基因的14号外显子突变和年龄,依赖于癌症阶段的CNV,C-MET过表达的关系
  • 原文地址:https://www.cnblogs.com/haozhengfei/p/64ae698e1cbee769d09be9cd4c781f6c.html
Copyright © 2011-2022 走看看