zoukankan      html  css  js  c++  java
  • Jackcard类似度和余弦类似度(向量空间模型)的java实现

    版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言。

    总结Jackcard类似度和余弦类似度。

    一、集合的Jackcard类似度

    1.1Jackcard类似度

    Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数。

    数学公式描写叙述:

    J(A,B)=|AB||AB|

    这个看似简单的算法有非常大的用处。比方:

    1. 抄袭文档
      高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard类似度计算适合从字面上进行计算,假设是更高级的抄袭改变了语义jackcard类似度计算就无能为力了
    2. 镜像页面
      多个主机上建立镜像以共享载入内容,同一份内容有多个副本。这样的情况实现jackcard类似度计算十分有效。
    3. 同源新闻稿
      一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量改动后公布,使用这些同源新闻稿能够用jackcard类似度算法来检測出来

    1.2 Java实现

    import java.util.HashSet;
    import java.util.Map;
    import java.util.Set;
    
    /**
     * Created by bee on 17/4/12.
     */
    public class JackcardSim {
    
        public static double calJackcardSim(Set<String> s1, Set<String> s2) {
    
            Set<String> all = new HashSet<>();
            all.addAll(s1);
            all.addAll(s2);
            System.out.println(all);
            Set<String> both = new HashSet<>();
            both.addAll(s1);
            both.retainAll(s2);
            System.out.println(both);
    
            return (double) both.size() / all.size();
    
        }
    
        public static void main(String[] args) {
    
            Set<String> s1 = new HashSet<String>();
            s1.add("互联网");
            s1.add("金融");
            s1.add("房产");
            s1.add("融资");
            s1.add("科技");
    
            Set<String> s2 = new HashSet<String>();
            s2.add("互联网");
            s2.add("开源");
            s2.add("人工智能");
            s2.add("软件");
            s2.add("科技");
    
            System.out.println(calJackcardSim(s1, s2));
    
        }
    }
    

    执行结果

    [科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
    [科技, 互联网]
    0.25

    二、向量空间模型

    2.1简单介绍

    向量空间模型是一个把文本文件表示为标识符(比方索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。

    文档和查询都用向量来表示。

    dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)

    cosθ=d2qd2q=i=1Nwi,jwi,qi=1Nw2i,ji=1Nw2i,q

    2.2、java实现

    import java.util.HashMap;
    import java.util.HashSet;
    import java.util.Map;
    import java.util.Set;
    
    /**
     * Created by bee on 17/4/10.
     */
    public class Vsm {
    
        public static double calCosSim(Map<String, Double> v1, Map<String, Double>
                v2) {
    
            double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;
    
            Set<String> v1Keys = v1.keySet();
            Set<String> v2Keys = v2.keySet();
    
            Set<String> both= new HashSet<>();
            both.addAll(v1Keys);
            both.retainAll(v2Keys);
            System.out.println(both);
    
            for (String str1 : both) {
                sclar += v1.get(str1) * v2.get(str1);
            }
    
            for (String str1:v1.keySet()){
                norm1+=Math.pow(v1.get(str1),2);
            }
            for (String str2:v2.keySet()){
                norm2+=Math.pow(v2.get(str2),2);
            }
    
            similarity=sclar/Math.sqrt(norm1*norm2);
            System.out.println("sclar:"+sclar);
            System.out.println("norm1:"+norm1);
            System.out.println("norm2:"+norm2);
            System.out.println("similarity:"+similarity);
            return similarity;
        }
    
        public static void main(String[] args) {
    
            Map<String, Double> m1 = new HashMap<>();
            m1.put("Hello", 1.0);
            m1.put("css", 2.0);
            m1.put("Lucene", 3.0);
    
            Map<String, Double> m2 = new HashMap<>();
            m2.put("Hello", 1.0);
            m2.put("Word", 2.0);
            m2.put("Hadoop", 3.0);
            m2.put("java", 4.0);
            m2.put("html", 1.0);
            m2.put("css", 2.0);
            calCosSim(m1, m2);
    
        }
    }
    

    执行结果:

    [css, Hello]
    sclar:5.0
    norm1:14.0
    norm2:35.0
    similarity:0.22587697572631282

    三、參考资料

    https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
    http://baike.baidu.com/link?

    url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTDnNyGoGgBJZN7sq

  • 相关阅读:
    (转)磁盘管理(一,二)
    (转)认识 Linux 文件系统
    (转)linux磁盘分区fdisk分区和parted分区
    (转)centos7.4 fdisk磁盘分区 格式化 挂载
    (转)磁盘分区类型选择与磁盘分区配置过程
    (转)linux配置网卡的命令
    (转)磁盘阵列RAID原理、种类及性能优缺点对比
    (转)AIX 中 Paging Space 使用率过高的分析与解决
    (转)Linux内核参数设置sysctl命令详解
    (转)linux mount (挂载命令)详解
  • 原文地址:https://www.cnblogs.com/llguanli/p/7397774.html
Copyright © 2011-2022 走看看