zoukankan      html  css  js  c++  java
  • 关联规则

    1、背景

      1993年,Agrawal提出了关联规则(Association Rule)问题,旨在发现顾客购货篮内商品间令人感兴趣的关系。

       “啤酒和尿布” 沃尔玛利用NCR数据挖掘工具意外的发现:跟尿布一起购买最多的商品竟是啤酒!

      今天,关联规则已广泛应用于金融、营销以及生物信息学等领域。

    2、概念

      1)基本概念:

        项集:一个或多个项目的集合。 例如: {Milk, Bread, Diaper} ,包含k 个项目的项集称为k-项集

        绝对支持度 ():某一项集出现的次数。 比如 ({Milk, Bread,Diaper}) = 2

        相对支持度(s): 包含某一项集的事务在全体事务中的比例。比如. s({Milk, Bread, Diaper}) = 2/5

        频繁项集: 支持度不小于给定最小支持度阈值(minsup)的项集

      2)关联规则

        (1)关联规则:寻找给定的数据集中项目之间令人感兴趣的关系

            

          形如 X  Y的蕴涵式, 其中 X 和Y是项集,且XY=。 比如: {Milk, Diaper} {Beer}

      3)规则评价参数

          支持度 (s) 同时包含X和Y的事务占全部事务的百分比

          可信度 (c) 包含项集X的事务中也包含Y的百分比

            

      4)关联规则挖掘的一般流程    

    • 找出满足最小支持度阈值的所有频繁项集。
    • 由频繁项集产生满足最小可信度阈值的强关联规则。
    • 这两步中,第二步较容易。关联规则挖掘的总体性能由第一步决定。

    3、算法

      1)Apriori算法

      其核心是基于两阶段频繁项集思想的递推算法。第一步,简单统计所有含一个元素项集出现的频数,并找出那些不小于最小支持度的项集,即一维最大项集。第二步,从第二步开始循环处理直到再没有最大项集生成,循环过程:第k步中,根据第k-1步生成(k-1)维最大项集产生k维候选项集,然后对数据库进行搜索,得到候选项集的支持度,与最小支持度进行比较,从而找到k为最大项集。

      2)FP-Growth算法

      3)复杂关联规则挖掘

        序列模式挖掘

        频繁子图挖掘

        

          

       

  • 相关阅读:
    vue项目中使用定时器,离开页面时清除定时器
    不能在循环中使用res.send(err);
    React使用require加载图片失败
    实验五 单元测试
    实验四 代码评审
    UML 建模工具的安装与使用
    结对编程 第二阶段
    结对编程
    GIT 代码版本管理
    结构化方法与面向对象化方法的比较
  • 原文地址:https://www.cnblogs.com/chamie/p/4533090.html
Copyright © 2011-2022 走看看