zoukankan      html  css  js  c++  java
  • 《数据挖掘:理论与算法》学习笔记(九)—关联规则

    关联规则

    隐藏在大型数据集中的令人感兴趣的联系
    在这里插入图片描述
    例子:
    在这里插入图片描述
    关联规则的强度可以用它的支持度和置信度度量

    支持度与置信度

    在这里插入图片描述
    关联规则的支持度
    支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。
    因此,支持度通常用来删除那些不令人感兴趣的规则。
    在这里插入图片描述
    关联规则的置信度(相当于条件概率)
    置信度通过规则进行推理的可靠性。对于给定的规则 X>Y,置信度越高,Y 在包含X 的事务中出现的可能性就越大。
    在这里插入图片描述
    例子
    在这里插入图片描述

    先验原理

    如果一个项集是频繁的,则它的所有子集一定也是频繁的

    Apriori算法

    第一个关联规则挖掘算法,开创性地使用基于支持度的剪枝技术,系统地控制侯选项集指数增长。其核心是基于两阶段频集思想的递推算法
    主要步骤(以购物车为例)

      • 首先会生成所有单个物品的项集列表
      • 扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉
      • 对剩下的集合进行组合以生成包含两个元素的项集
      • 接下来重新扫描交易记录,去掉不满足最小支持度的项集,重复进行直到所有项集都被去掉

    序列模式:

  • 相关阅读:
    poj 3280 Cheapest Palindrome(区间DP)
    POJ 2392 Space Elevator(多重背包)
    HDU 1285 定比赛名次(拓扑排序)
    HDU 2680 Choose the best route(最短路)
    hdu 2899 Strange fuction (三分)
    HDU 4540 威威猫系列故事――打地鼠(DP)
    HDU 3485 Count 101(递推)
    POJ 1315 Don't Get Rooked(dfs)
    脱离eclipse,手动写一个servlet
    解析xml,几种方式
  • 原文地址:https://www.cnblogs.com/cy0628/p/14128404.html
Copyright © 2011-2022 走看看