关联规则
隐藏在大型数据集中的令人感兴趣的联系
例子:
关联规则的强度可以用它的支持度和置信度度量
支持度与置信度
关联规则的支持度
支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。
因此,支持度通常用来删除那些不令人感兴趣的规则。
关联规则的置信度(相当于条件概率)
置信度通过规则进行推理的可靠性。对于给定的规则 X−>Y,置信度越高,Y 在包含X 的事务中出现的可能性就越大。
例子
先验原理
如果一个项集是频繁的,则它的所有子集一定也是频繁的
Apriori算法
第一个关联规则挖掘算法,开创性地使用基于支持度的剪枝技术,系统地控制侯选项集指数增长。其核心是基于两阶段频集思想的递推算法。
主要步骤(以购物车为例)
- 首先会生成所有单个物品的项集列表
- 扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉
- 对剩下的集合进行组合以生成包含两个元素的项集
- 接下来重新扫描交易记录,去掉不满足最小支持度的项集,重复进行直到所有项集都被去掉
序列模式: