zoukankan      html  css  js  c++  java
  • 4.文本相似度

    4.文本相似度

    文本相似度分析的主要目的是分析和测量两个文本彼此距离的远近。这些文本实体可以是简单的标识或词频,例如单词,也可以是包含句子和文本段落的整个文档。目前有各种各样的文本相似度分析方法,文本相似度分析的目的大致分为以下两个方面。

    • 词汇相似度:通过句法、结构和内容研究文本文档的内容,并根据这些参数测量其相似度。
    • 语义相似度:首先找出文档的语义、含义和上下文,然后找出它们彼此的距离。在这方面,依存语法和实体识别是很有用的工具。

    目前最流行的研究领域是词汇相似度分析,因为这些技术很简单、更易于实现,还可以使用简单的模型(如词袋模型)实现语义相似度的一些分析。通常,距离度量用来衡量文本实体之间的相似度。接下来,将主要介绍以下两个领域的文本相似度。

    • 词项相似度:在这里,将测量每个标识或单词之间的相似度。
    • 文档相似度:在这里,将测量整个文本文档之间的相似度。

    思路是实现并使用几个距离度量,看看如何测量和分析只具有简单单词的实体之间的相似度,然后在看看当测量由复杂词组组成的文档之间的相似度时,会发生什么变化。

  • 相关阅读:
    Echart 动态生成series数据
    转换Excel格式
    .NET接收邮件下载邮件附件——openpop.net
    百度Echart 地图
    mobiscroll 日期问题
    jQuery自动完成插件flexselect
    HTML5 video 连续播放视频
    team foundation server 工具的使用
    实现主成分分析与白化
    白化(预处理步骤)【转】
  • 原文地址:https://www.cnblogs.com/dalton/p/11354014.html
Copyright © 2011-2022 走看看