1.重要概念

zoukankan html css js c++ java

1.重要概念
1.重要概念

主要目的是为了解文本相似度和聚类。在介绍实际的技术和算法之前，将讨论与信息检索。文档相似度度量和机器学习相关的一些重要概念。虽然这些概念中的部分可能已经讲述过。

信息检索

信息检索（Information Retrieval，IR）是根据某些需求从存储信息的语料库或实体中检索或获取相关信息源的过程。例如，它可以是用户在搜索引擎中驶入查询或搜索，然后获取与其查询相关的搜索项的过程。实际上，搜索引擎是 IR 最受欢迎的应用。

文档和信息与用户需求的相关性可以通过集中方式进行衡量。它包括从搜索文本中查找特定关键字，或使用一些相似度度量来查看文档与输入查询的相似度排名或得分。这与字符串匹配或正则表达式匹配完全不同，因为相对于文档（实体）集合中的字符串，搜索字符串中的单词常常具有不同的顺序、上下文和语义，而这些单词的含义基于同义词、反义词和否定修饰符可以有多重可能的结果。

特征工程

词袋、TF-IDF 和词向量模型等技术通常用于以数值向量的形式表示文档对文档建模，以便于更加方便的应用数学或机器学习技术。通过这些特征提取技术，可以得出各种文档的数字表示，甚至可以将每个字母或单词映射到与之相应的唯一数字标识符。

相似度测量

在文本相似度分析和聚类中经常使用相似度测量。相似度或距离测量值通常是用来衡量两个实体之间的接近程度的，其中实体可以是任何文本形式，例如文档、句子甚至是短语。这种相似度测量在识别类似实体并将不同实体加以区分时十分有用。相似度测量是十分有效的，有时选择正确的度量方式可能会对最终分析系统的性能产生很大的影响。基于距离测量，人们还发明了各种评分或排名算法。实体之间的相似度由两个主要因素决定：
- 实体的固有属性或特征。
- 测量公式及其特征。
请记住一个重要的知识点，那就是不是所有的距离测量值都是相似度的距离度量（distance metric）。A. Huang 在一篇优秀的论文 “Similarity Measures fox Text Document Clustering (文本文档聚类的相似度测量)” 中详细介绍了这一点。可以考虑距离测量值 d 和两个实体（如文档）x 和 y。x 和 y 之间的距离用于确定它们之间的相似度，可以表示为 d(x,y)，当且仅当满足以下四个条件时，测量值 d 才可以称为一个相似度的距离度量：
1. 任何两个实体之间的测量距离（如 x 和 y 的距离）必须始终为非负数，及d(x,y) >= 0。
2. 当且仅当两个实体相同时，距离为零，即 d(x,y) = 0 iff x = y。
3. 这个距离测量值应该是对称的，这意味着从 x 到 y 的距离总是和从 y 到 x 的距离相同，数学上表示为 d(x,y) = d(y,x)。
4. 该距离测量值应该满足三角不等式特性，在数学上可以表示为 d(x,z) <= d(x,y) + d(y,z)。
以上条件是重要的衡量标准，也是一个良好的框架，可以用它来检查距离测量方法是否可以用作测量相似度的距离度量。

无监督的机器学习算法

无监督的机器学习算法属于 ML 算法系列，它们尝试从数据的各种属性的特征中发现其中潜在的、隐藏的结构和模式。此外，一些无监督学习算法也用来减少特征空间，通常是将高纬度的特征空间转变为低纬度的特征空间。这些算法所运行的数据基本上是没有预先分类的为标记数据。应用这些算法的目的是寻找模式并识别特征，这有助于将各种数据点分成组或类。这些算法通常称为聚类算法。
查看全文

相关阅读:
MapReduce程序遇见java.net.UnknownHostException
吐槽下《Hadoop权威指南（第二版）》的翻译
 HFileOutputFormat与TotalOrderPartitioner
关于hive multi group by的疑惑
 Hive解决 java.io.IOException:SerDeException:LazySimpleSerDe
一个字符编码引发的血案
 CSS颜色代码大全
 C#中ParameterizedThreadStart和ThreadStart区别
 Sql Server REPLACE函数的使用
 QueryString的用法

原文地址：https://www.cnblogs.com/dalton/p/11353985.html

1.重要概念

信息检索

特征工程

无监督的机器学习算法