prefixspan算法韩家炜老师在2001年提出的序列模式算法,该算法和他在2000提出的FP_growth算法有很大的相似之处,都避免产生候选序列。
prefixspan算法的核心是产生前缀和对应的后缀,每次递归都将合适的后缀变为前缀。难点是类似:<a x>,<(a x)>和<(_ x)>,后两种可以做一类处理。现以下图所示的超市购物数据详细讲解,阈值是2=4*50%。
概念介绍:每行数据叫序列,可以理解某人第一天买了商品a,b,c,第二天又买了商品a,b,c,第三天买了商品a,c。某天买的总商品叫项目如:a,b,c。每件商品叫元素如a。
第一步:按每个元素排序,每个元素在一个序列中即使出现多次,也只算一次,然后删除不满足阈值的元素,这里只删除了元素g,结果如下图:
第二步:找前缀分别为a,b,c,d,e,f的后缀,那么这些后缀是相互独立,互不影响的。这是算法的关键。前缀a和b的后缀如下图:
这里的下划线"_"表示它就是前缀,并且该项目还有其他元素。
第三步:在各个后缀中分别递归的讲后缀变成前缀。以前缀a为例。前缀为<a b>的后缀是:
后面的4表示前缀为<a b>出现了4次,分别是下面两次,第三次是空的,表示前缀<a b>后面没有项目了。前缀为<(a b)>的后缀是:
注意前缀<a b>和<(a b)>是有区别的。前者表示元素a,b在不同的项目里面,而后者表示元素a,b必须在同一个项目里面。这代表了两种不同的情况。这一步可以一直递归下去,知道全部后缀变成前缀为止。下面就前缀<a b>继续分析,它会生成前缀为<a b c>的后缀:
此时,再没有合适的后缀可以转换成前缀了,结束递归。前缀为<a (b c)>的后缀:
此时,再没有合适的后缀可以转换成前缀了,结束递归。于是整个前缀为<a b>的所有情况的找出来了。类似的可以找出前缀为b,c,d,e,f的部分。
论文下载:地址