对相关性patten质量的常用分析指标有以下这些
其中,X^2 跟 lift不是null-invariant的,也就是说当~A~B项较多时,这两个指标不是很可靠。
据Jiawei Han所言,Kulczynski这个指标是比较稳定而好用的,同时还要辅助观察imbalance ratio来看评价结果的争议程度
一个具体使用例子为:
最后总结一下:
我们进行Patten Mining,主要是为了找到一起出现的可能性足够高且争议不大的“组”。
那么,我们追求的便是:
1. Kulczynski值足够大(接近1)
2. IR相对小(接近0)