特征挖掘的框架
频繁特征挖掘基本概念
1.频繁项集、频繁子序列、频繁子结构
2.关联规则:
- 购物篮问题:电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%],表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买,而所有购买了电脑的用户中,有60%的用户也购买了软件。
- 计算:
- 关联规则的挖掘本质上是频繁项集的挖掘:两步
a)找到所有的频繁项集;
b)基于频繁项集生成强关联规则;
- 难点及解决方案:
当min_sup设置的很小时,会存在大量的项集满足约束条件,开销大==>闭合频繁项集 + 最大频繁项集
a)闭合频繁项集:数据集D中不存在项集Y使得X是其子集且二者支持度数目(support count)相等
b)最大频繁项集:X是频繁项集,且不存在频繁项集使得Y包含项集X
频繁项集挖掘
- 先验(Apriori)算法:发现频繁项集
1.思想:利用频繁项集的先验知识,使用分层搜索的技术,即k项集被用于生成k+1项集
2.先验性质:
目的,提升分层搜索的效率。定义,所有非空频繁项集的子集也应该是频繁项集。
3.L_k-1项集生成L_k项集的过程:两步,join + prune
4.算法:
5.从频繁项集到关联规则:强关联规则是那些即满足min_sup又满足min_conf的频繁项集
6.提升先验算法的效率: a)利用哈希表;b)减少数据量;分割数据;采样;动态项集计数;
- FP-growth算法:解决先验算法开销大的不足
1.算法
- 垂直数据格式(vertical data format):
1. 定义:传统的{TID:itemset}形式的的数据称为水平数据格式,而垂直数据格式形如{item: TID_set}
2.挖掘方法:每次迭代中将两组频繁TID_set联结在一起
频繁项集的评估
1.原有的support-confidence框架下的关联关系挖掘规则并不完备,有时具有欺骗性;
2.关联规则中的相关性分析:
- lift
其中,lift=1时二者不相关,lift>1正相关,lfft<1负相关
- chi-square
- cosine-similarity
多层、多维空间中的特征挖掘
- 多层关联关系挖掘:
1.定义:从多个抽象层实现关联规则的挖掘
2.方法: 在支持度-置信度框架下使用概念分层的策略
- 多维关联关系的挖掘:
1.定义:
2.方法
- 量化的关联规则的挖掘:
1.方法:解决离散化过程中的问题,a.利用数据块b.聚类c.统计分析移除异常数据
- 受限的频繁特征挖掘
1.约束类型:数据类型、维度、规则等
- 高纬度与海量特征的挖掘:
1. 目的:弥补频繁模式挖掘中仅仅适用于低维度数据的局限性
2.方法一:利用垂直数据格式来解决数据量小但是高维度的挖掘问题
2.方法二:模式融合
- 应用场景
- 方法:将一部分较短的频繁模式作为海量模式候选项,以在模式搜索的过程中绕开纯BDF与DFS挖掘策略的一些陷阱,进而对海量的频繁模式进行很好的逼近
引用:
[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.