zoukankan      html  css  js  c++  java
  • Apriori算法之-----关联分析

    https://www.cnblogs.com/bigmonkey/p/7405555.html

    https://www.cnblogs.com/ybjourney/p/4847489.html

    摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证。

      “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这种从大规模的数据中发现物品间隐含关系的方法被称为关联分析,也就是本文要主要研究的一种常用的分析方法,Apriori算法是最著名的关联规则挖掘算法之一。下面就围绕该算法展开学习。

    一 关联分析

     关联分析是一种在大规模数据集中寻找有趣关系的任务。这些任务有两种形式:频繁项集和关联规则。频繁项集是经常出现在一块的物品的集合;关联规则暗示的是两种物品之间可能存在很强的关系。可以结合某家店的交易清单来说明这两个概念:

    交易号码

    商品

    0

    豆奶,草莓

    1

    草莓,尿布,啤酒,辣椒酱

    2

    豆奶,尿布,黄瓜,饼干

    3

    黄瓜,饼干,尿布,啤酒

    4

    黄瓜,啤酒,尿布,黄瓜

    频繁项集指的就是那些经常一起出现的物品集合,比如{啤酒,尿布,饼干}就是频繁项集中的一个例子,而根据上表也可以找到尿布->啤酒这样的关联规则。

      而我们是要通过关联分析大规模数据从而发现数据之间存在的有趣关系,那么问题来了,什么样的关系是有趣的呢?而这个有趣又是怎么定义的呢?我们可以通过支持度(support)和可信度(置信度confidence)来定义。一个项集的支持度指的是数据集中包含该项集记录所占的比例,上例中{豆奶}的支持度是2/5,{啤酒,尿布}的支持度是3/5;可信度是针对于像{尿布}->{啤酒}这样的关联规则来定义的,定义为:支持度({尿布,啤酒})/支持度(尿布)。 

    二 Apriori原理                       

      上述我们通过支持度和可信度来定义发现数据之间存在的关系。我们知道,在商品列表中,可能存在单一商品组成的频繁项集,当然也存在两个以及两个以上的商品组成的频繁项集。而在计算一个频繁项集的支持度时,通常需要遍历所有的商品列表求得,对于列表数目较少的情况该方法无疑是没问题的,但当列表数目成千上万时,计算量过大,这种方法势必是不适用的。

      那么如何解决上述问题呢,Apriori原理可以解决!Apriori原理是说如果某个项集是频繁的,那么它的所有子集势必也是频繁的。这个原理从表面上看没什么大用,但是反过来,如果一个项集是非频繁项集,那么它所对应的超集就全都是非频繁项集。这样在确定了一个项集是非频繁项集了之后,它所对应的超集的支持度我们就可以不去计算了,这在很大程度上避免了项集数目的指数增长,可以更加合理的计算频繁项集。

     三 Apriori算法                               

    (1)使用Apriori算法来发现频繁项集

      Apriori算法是用来发现频繁项集的一种方法。Apriori算法的两个输入参数分别是最小支持度和数据集。该算法首先生成所有单个物品的项集列表,遍历之后去掉不满足最小支持度要求的项集;接下来对剩下的集合进行组合生成包含两个元素的项集,去掉不满足最小支持度的项集;重复该过程直到去掉所有不满足最小支持度的项集。

      首先采用python生成所有的单个物品所对应的项集,并构建一个得到频繁项集的函数,代码如下:

    map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每个元素,并把结果作为新的Iterator返回。
    

      

    所谓冻结就是这个集合不能再添加或删除任何集合里的元素。因此与集合set的区别,就是set是可以添加或删除元素,而frozenset不行。frozenset的主要作用就是速度快,它是使用hash算法实现。参数iterable是表示可迭代的对象,比如列表、字典、元组等等。
    
    
    #frozenset()
     
    l = [1, 2, 3, 4, 5, 6, 6, 7, 8, 8, 9]
    print(len(l), l)
    set = frozenset(l)
    

      

  • 相关阅读:
    OCP 071【中文】考试题库(cuug整理)第51题
    OCP 071【中文】考试题库(cuug整理)第50题
    OCP 071【中文】考试题库(cuug整理)第49题
    OCP 071【中文】考试题库(cuug整理)第48题
    OCP 071【中文】考试题库(cuug整理)第47题
    OCP 071【中文】考试题库(cuug整理)第46题
    three 优化压缩
    个人最近功能demo总结
    下载文件,204问题
    debug和release的web.config分开配置
  • 原文地址:https://www.cnblogs.com/Mengchangxin/p/9814708.html
Copyright © 2011-2022 走看看