zoukankan      html  css  js  c++  java
  • 三,专著研读

    三,专著研读

    • 支持度:几个关联的数据在数据集中出现的次数所占数据集的比重。支持度是针对項集来说的,可以定义一个最小支持度,保留满足最小支持度的項集,起到項集过滤。
    • 置信度:一个数据出现后,另外一个数据出现的概率(数据的条件概率),(例:豆奶-莴苣/莴苣)
      (Confidenceleft ( X ightarrow Y ight )=Pleft ( Xmid Y ight )=frac{Pleft ( XY ight )}{Pleft ( Y ight )})


    多个数据的置信度

    (Confidenceleft ( X ightarrow YZ ight )=Pleft ( Xmid YZ ight )= frac{Pleft ( XYZ ight )}{Pleft ( YZ ight )})

    • 提升度:含有Y条件下同时含有X的概率,与X总体发生的概率之比,也就是X对Y的提升度。
      (Liftleft (X ightarrow Y ight )=frac{Pleft (X mid Y ight )}{Pleft ( X ight )}=frac{Confidenceleft ( X ightarrow Y ight )}{pleft ( X ight )})

    • 先验性质:频繁項集的子集也是频繁項集,非频繁項集的超级是非频繁的(重点)。

    • Apriori:
      Apriori对每个潜在的频繁項集,都会扫描判定是否是频繁的。

    • FP-growth:
      两次扫描(对关键字进行排序),FP只是一个更高效的发现频繁項集的算法,不能用于发现关联规则。

  • 相关阅读:
    Java 的类加载顺序
    单链表之一元多项式求和C++实现
    顺序线性表之大整数求和C++实现
    线性表之单链表C++实现
    NOIP 2009 潜伏者
    JDOJ 2782: 和之和
    浅谈前、中、后缀表达式
    CF13B Letter A
    洛谷 P5015 标题统计
    NOIP 2013 转圈游戏
  • 原文地址:https://www.cnblogs.com/zaw-315/p/11237873.html
Copyright © 2011-2022 走看看