zoukankan      html  css  js  c++  java
  • H指数计算

    H指数定义:
    H指数是用来综合衡量学者发表论文的数量和质量的指标。
    若某学者共发表N篇论文,H指数是指存在h篇论文至少每篇有h引用量,剩下的N-h篇中,每篇都不超过h引用量。
    H指数也可以是期刊H指数,机构H指数,学者H指数等等。
    一.排序法

    复杂度
    时间 O(NlogN) 空间 O(1)

    思路

    先将数组排序,我们就可以知道对于某个引用数,有多少文献的引用数大于这个数。对于引用数citations[i],大于该引用数文献的数量是citations.length - i,而当前的H-Index则是Math.min(citations[i], citations.length - i),我们将这个当前的H指数和全局最大的H指数来比较,得到最大H指数。

    代码

    //排序按引用次数正序排序,并且可以舍弃为0的引用减少计算。

    public class Solution {
        public int hIndex(int[] citations) {
            // 排序
            Arrays.sort(citations);
            int h = 0;
            for(int i = 0; i < citations.length; i++){
                // 得到当前的H指数
                int currH = Math.min(citations[i], citations.length - i);
                if(currH > h){
                    h = currH;
                }
            }
            return h;
        }
    }

    二.数组映射法

    复杂度
    时间 O(N) 空间 O(N)

    思路

    也可以不对数组排序,我们额外使用一个大小为N+1的数组stats。stats[i]表示有多少文章被引用了i次,这里如果一篇文章引用大于N次,我们就将其当为N次,因为H指数不会超过文章的总数。为了构建这个数组,我们需要先将整个文献引用数组遍历一遍,对相应的格子加一。统计完后,我们从N向1开始遍历这个统计数组。如果遍历到某一个引用次数时,大于或等于该引用次数的文章数量,大于引用次数本身时,我们可以认为这是H指数。之所以不用再向下找,因为我们要取最大的H指数。那如何求大于或等于某个引用次数的文章数量呢?我们可以用一个变量,从高引用次的文章数累加下来。因为我们知道,如果有x篇文章的引用大于等于3次,那引用大于等于2次的文章数量一定是x加上引用次数等于2次的文章数量。

    代码



    public class Solution {
        public int hIndex(int[] citations) {
            int[] stats = new int[citations.length + 1];
            int n = citations.length;
            // 统计各个引用次数对应多少篇文章
            for(int i = 0; i < n; i++){
                stats[citations[i] <= n ? citations[i] : n] += 1;
            }
            int sum = 0;
            // 找出最大的H指数
            for(int i = n; i > 0; i--){
                // 引用大于等于i次的文章数量,等于引用大于等于i+1次的文章数量,加上引用等于i次的文章数量
                sum += stats[i];
                // 如果引用大于等于i次的文章数量,大于引用次数i,说明是H指数
                if(sum >= i){
                    return i;
                }
            }
            return 0;
        }
    }

    三 . 二分搜索法(优化)

    复杂度
    时间 O(logN) 空间 O(1)

    思路

    在升序的引用数数组中,假设数组长为N,下标为i,则N - i就是引用次数大于等于下标为i的文献所对应的引用次数的文章数。如果该位置的引用数小于文章数,则说明则是有效的H指数,如果一个数是H指数,那最大的H指数一定在它的后面(因为是升序的)。根据这点就可已进行二分搜索了。这里min = mid + 1的条件是citations[mid] < n - mid,确保退出循环时min肯定是指向一个有效的H指数。

    代码



    public class Solution {
        public int hIndex(int[] citations) {
            int n = citations.length;
            if(n == 0) return 0;
            int min = 0, max = citations.length - 1;
            while(min <= max){
                int mid = (min + max) / 2;
                // 如果该点是有效的H指数,则最大H指数一定在右边
                if(citations[mid] < n - mid){
                    min = mid + 1;
                // 否则最大H指数在左边
                } else {
                    max = mid - 1;
                }
            }
            // n - min是min点的H指数
            return n - min;
        }
    }                           
                   

  • 相关阅读:
    第2章 NIO入门
    Docker Compose命令详解
    网络层相关术语解释
    linux查看并发连接数
    带宽计算方法
    ELK日志分析平台搭建
    mysql查找json格式列的指定字段值
    Oracle性能优化
    修改hosts文件不需要重启的方法
    freeswitch的internal的profile无法启动
  • 原文地址:https://www.cnblogs.com/cuihongyu3503319/p/12532956.html
Copyright © 2011-2022 走看看