相似度量的研究及其在数据挖掘中的应用(知网)
常见的相似度量方法:Minkowski距离、Euclidean距离(处理数值型数据)、Mahalanobis距离、
Manhattan距离和Cosine Angle距离
本文从数据空间覆盖关系的角度提出一种相似度量方法,并在此基础上设计和实现了相应的俩中算法
:(1)基于数据空间覆盖关系的分类算法(PCC);(2)基于动态部分覆盖的特征选择算法(DPC)
。
结合邻近集计算法思想提出一种基于时间权重邻近集计算的算法(TWNCM);采用有序数匹配的思想,
提出了基于结构相似度量的WEB页面聚类方法,并用于WEB信息抽取中。
相似度的定义:相似度是两类模式之间的相似程度,它有多种搞得定义方式。在数据挖掘研究中,常
用距离和相关系数来衡量对象之间的相似度,距离和相似系数统称为归类指数。
数据类型:Nominal类型、Ordinal类型、Interval类型、Ratio类型
数值型数据之间的距离:
(1)曼哈度(Manhattan)距离
(2)明考夫斯基(Minkowski)距离
(3)欧氏(Euclidean)距离
(4)马氏(Mahalanobis)距离
(5)兰式(Lance Williams)距离
(6)切比雪夫(Chebyshev)距离
(7)相关系数
离散型变量的距离:
混合型变量间的距离:
新的距离度量:
HEOM度量(混合欧几里得重叠度量Heterogeneous Euclidean-Overlap Metric)
值差度量(VDM)Value Difference Metric
混合值差度量(HVDM)Heterogeneous Value Difference Metric
插值值差度量(IVDM)Interpolated Value Difference Metric
最低风向度量(MRM)Minimal Risk Metric
时间效率、鲁棒性、精确性