zoukankan      html  css  js  c++  java
  • 4.文本相似度

    4.文本相似度

    文本相似度分析的主要目的是分析和测量两个文本彼此距离的远近。这些文本实体可以是简单的标识或词频,例如单词,也可以是包含句子和文本段落的整个文档。目前有各种各样的文本相似度分析方法,文本相似度分析的目的大致分为以下两个方面。

    • 词汇相似度:通过句法、结构和内容研究文本文档的内容,并根据这些参数测量其相似度。
    • 语义相似度:首先找出文档的语义、含义和上下文,然后找出它们彼此的距离。在这方面,依存语法和实体识别是很有用的工具。

    目前最流行的研究领域是词汇相似度分析,因为这些技术很简单、更易于实现,还可以使用简单的模型(如词袋模型)实现语义相似度的一些分析。通常,距离度量用来衡量文本实体之间的相似度。接下来,将主要介绍以下两个领域的文本相似度。

    • 词项相似度:在这里,将测量每个标识或单词之间的相似度。
    • 文档相似度:在这里,将测量整个文本文档之间的相似度。

    思路是实现并使用几个距离度量,看看如何测量和分析只具有简单单词的实体之间的相似度,然后在看看当测量由复杂词组组成的文档之间的相似度时,会发生什么变化。

  • 相关阅读:
    【概念】using 三种使用方式
    2019-7-2 作业1 2 3
    异常
    java.lang.NullPointerException
    课外作业(建立double类型的小数,按照四舍五入保留2位小数)
    作业1.2.3.4
    左自增与右自增的区别
    深入了解JVM(Java虚拟机)
    Eclipse报错Could not resolve archetype
    ThinkPad E550 连蓝牙鼠标logitech M557
  • 原文地址:https://www.cnblogs.com/dalton/p/11354014.html
Copyright © 2011-2022 走看看