zoukankan      html  css  js  c++  java
  • 《数据挖掘:理论与算法》学习笔记(九)—关联规则

    关联规则

    隐藏在大型数据集中的令人感兴趣的联系
    在这里插入图片描述
    例子:
    在这里插入图片描述
    关联规则的强度可以用它的支持度和置信度度量

    支持度与置信度

    在这里插入图片描述
    关联规则的支持度
    支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。
    因此,支持度通常用来删除那些不令人感兴趣的规则。
    在这里插入图片描述
    关联规则的置信度(相当于条件概率)
    置信度通过规则进行推理的可靠性。对于给定的规则 X>Y,置信度越高,Y 在包含X 的事务中出现的可能性就越大。
    在这里插入图片描述
    例子
    在这里插入图片描述

    先验原理

    如果一个项集是频繁的,则它的所有子集一定也是频繁的

    Apriori算法

    第一个关联规则挖掘算法,开创性地使用基于支持度的剪枝技术,系统地控制侯选项集指数增长。其核心是基于两阶段频集思想的递推算法
    主要步骤(以购物车为例)

      • 首先会生成所有单个物品的项集列表
      • 扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉
      • 对剩下的集合进行组合以生成包含两个元素的项集
      • 接下来重新扫描交易记录,去掉不满足最小支持度的项集,重复进行直到所有项集都被去掉

    序列模式:

  • 相关阅读:
    AC 自动机
    [HihoCoder-1424] Asa's Chess Problem
    C++ Tricks
    2017"百度之星"程序设计大赛
    后缀自动机
    ASP教程:gb2312和utf-8乱码问题解决
    cryto-js 常用加密库 md5加密
    nrm是什么?以及nrm的安装与命令
    MongoDB 安装
    koa2 安装与启动
  • 原文地址:https://www.cnblogs.com/cy0628/p/14128404.html
Copyright © 2011-2022 走看看