zoukankan      html  css  js  c++  java
  • 4.文本相似度

    4.文本相似度

    文本相似度分析的主要目的是分析和测量两个文本彼此距离的远近。这些文本实体可以是简单的标识或词频,例如单词,也可以是包含句子和文本段落的整个文档。目前有各种各样的文本相似度分析方法,文本相似度分析的目的大致分为以下两个方面。

    • 词汇相似度:通过句法、结构和内容研究文本文档的内容,并根据这些参数测量其相似度。
    • 语义相似度:首先找出文档的语义、含义和上下文,然后找出它们彼此的距离。在这方面,依存语法和实体识别是很有用的工具。

    目前最流行的研究领域是词汇相似度分析,因为这些技术很简单、更易于实现,还可以使用简单的模型(如词袋模型)实现语义相似度的一些分析。通常,距离度量用来衡量文本实体之间的相似度。接下来,将主要介绍以下两个领域的文本相似度。

    • 词项相似度:在这里,将测量每个标识或单词之间的相似度。
    • 文档相似度:在这里,将测量整个文本文档之间的相似度。

    思路是实现并使用几个距离度量,看看如何测量和分析只具有简单单词的实体之间的相似度,然后在看看当测量由复杂词组组成的文档之间的相似度时,会发生什么变化。

  • 相关阅读:
    mysql的复制
    web页面请求历程
    django工作原理简介
    http协议
    路由器和交换机的区别
    OSI七层模型
    TCP/IP协议总结
    IO复用
    僵尸进程和孤儿进程
    java源代码如何打成jar包
  • 原文地址:https://www.cnblogs.com/dalton/p/11354014.html
Copyright © 2011-2022 走看看