zoukankan      html  css  js  c++  java
  • 关联分析中的支持度、置信度和提升度

    转载自:http://m.blog.csdn.net/blog/sanqima/42746419

    1.支持度(Support)

        支持度表示项集{X,Y}在总项集里出现的概率。公式为:

                  Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)

     其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。  

                比如,num(I)表示总事务集的个数

                            num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。    

    2.置信度 (Confidence)

       置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:

                   Confidence(X→Y) = P(Y|X)  = P(X,Y) / P(X) = P(XUY) / P(X) 

    3.提升度(Lift)

        提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。

                   Lift(X→Y) = P(Y|X) / P(Y)

         例1,已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡,如表(1)所示:

    表(1)年货购买表

          试求解 1)”茶叶→咖啡“的支持度

                       2) "茶叶→咖啡"的置信度

                       3)”茶叶→咖啡“的提升度

        分析:

             设X= {买茶叶},Y={买咖啡},则规则”茶叶→咖啡“表示”即买了茶叶,又买了咖啡“,于是,”茶叶→咖啡“的支持度为

                   Support(X→Y) = 450 / 500 = 90%

            "茶叶→咖啡"的置信度为

                   Confidence(X→Y) = 450 / 500 = 90%

              ”茶叶→咖啡“的提升度为

                   Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% /  ((450+450) / 1000) = 90% / 90% = 1

             由于提升度Lift(X→Y) =1,表示X与Y相互独立,即是否有X,对于Y的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联。即规则”茶叶→咖啡“不成立,或者说关联性很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。

            满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。

            如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。

            如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。

            特别地,如果Lift(X→Y) =1,则表示X与Y相互独立。

  • 相关阅读:
    git线上操作
    IDEA快捷方式
    Java 四种线程池
    java 获取当前天之后或之前7天日期
    如何理解AWS 网络,如何创建一个多层安全网络架构
    申请 Let's Encrypt 通配符 HTTPS 证书
    GCE 部署 ELK 7.1可视化分析 nginx
    使用 bash 脚本把 AWS EC2 数据备份到 S3
    使用 bash 脚本把 GCE 的数据备份到 GCS
    nginx 配置 https 并强制跳转(lnmp一键安装包)
  • 原文地址:https://www.cnblogs.com/michael-xiang/p/4598150.html
Copyright © 2011-2022 走看看