二,专著研读(第六章 挖掘频繁模式,关联和相关性)日期-7--21--22
- 支持度和置信度
支持度和置信度是规则兴趣的两种度量分别反映所发生规则的有用性和确定性。(13)
支持度(相对支持度):
(s=supportleft ( A ightarrow B ight )=Pleft ( Acup B ight ))
置信度:
(c=confidentleft ( A ightarrow B ight )=Pleft (B mid A ight )=frac{supportleft ( Acup B ight )}{supportleft ( A ight )}=frac{countleft (A cup B ight )}{countleft ( A ight )}) - 項集,频繁项集和闭频繁項集
项的集合称为項集。項集出现的频度是包含項集的事务数,也即項集频度項集频度(绝对支持度,计数)。上图中的s是相对支持度,如果一个項集的相对支持度满足对应的最小支持度阈值,该項集就是频繁項集。
挖掘关联规则问题归结为挖掘频繁項集。 - 关联规则的挖掘分为两步
1,找出所有频繁項集:满足最小支持度的所有項集。
2,由频繁項集产生强关联规则:这些规则必须满足最小支持度和最小置信度。 - 频繁項集的挖掘方法
Apriori算法
Apriori算法使用逐层搜索迭代方法,首先提高扫描数据库,累计每个项的计数并搜集满足最小支持度的项,找出频繁1项集的集合L1;然后使用L1找出频繁2项集的集合L2,使用L2找出L3,如此下去,直到不能再找到频繁k项集。
书中253页伪码 - 提高Apriori算法效率
采用基于散列的技术(散列项集到对应的桶中):一种基于散列的技术可用于压缩候选k项集的集合Ck(k>1)。
事务压缩(压缩进一步迭代扫描的事务数):不包含任何频繁k项集的事务不可能包含任何频繁(k+1)项集。
划分(为找候选项集划分数据):第一阶段把D中的事务化分成n个非重叠的分区;第二阶段评估每个候选的实际支持度,确定全局频繁项集。
抽样:对给定数据的一个子集上挖掘。
动态项集计数:在扫描不同点添加候选项集,动态项集计数将数据库划分为用开始点标记的块。
先验性质:频繁项集的所有非空子集也一定是频繁的。我们在Apriori算法中用到的实际上是该性质的反单调性:如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。先验性质的重要性质被用于压缩搜索空间。
挖掘频繁項集的模式增长方法
Apriori可能产生大量的候选项集,需要重复地扫描整个数据库,通过模式匹配检查一个大的候选集合,这个开销比较大。由此产生了频繁模式增长方法。
频繁模式增长方法
采用分治策略,将代表频繁項集的数据库压缩到,一颗频繁模式树(FP树),该树保留項集的关联信息;然后把压缩后的数据库划分成一组条件数据库(一种特殊类型的投影数据库),每个数据库关联一个频繁项或模式段,并分别挖掘每个条件数据库。对于每个模式片段,只考察与它相关联数据集。
FP树的挖掘:由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(一个子数据库,由FP树中与该后缀模式一起出现出现的前缀路径集组成)。然后,构造它的条件FP树,并递归地在该树上进行挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。
FP-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短模式,然后连接后缀。使用最不频繁的项做后缀,提供了很好的选择性,显著地降低了搜索开销。