zoukankan      html  css  js  c++  java
  • 数据挖掘-挖掘频繁模式、关联和相关性:基本概念和方法

    挖掘频繁模式、关联和相关性:基本概念和方法

    频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构)。

    例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。

    一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购物历史数据库中,则称它为一个(频繁地)序列模式。

    一个子结构可能涉及不同的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为(频繁的)结构模式。

    对于挖掘数据之间的关联、相关性和许多其他有趣的联系,发现这种频繁模式起着至关重要的作用。此外,它对数据分类、聚类和其他数据挖掘任务也有帮助。

    1.基本概念

    频繁模式挖掘搜索给定数据集中反复出现的联系。

    1.1购物篮分析

    频繁项集挖掘的一个典型例子是购物篮分析。该过程通过发现顾客购买过商品之间的联系,分析顾客的购物习惯。这种关联可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们制定更好的营销策略。

    分析结果可以帮助设计不同的商店布局。

    一种策略是:经常同时购买的商品可以摆放近一些,以便进一步刺激这些商品同时销售。

    另一种策略:把同时购买的商品摆放在商店两端,可能诱发买这些商品的顾客一路挑选其他商品。

    购物篮分析也可以帮助零售商规划什么商品降价出售。如果顾客趋向于同时购买计算机和打印机,则打印机的降价出售可能既促使购买打印机,又促使购买计算机。

    每种商品有一个布尔变量,表示该商品是否出现。每个购物篮可以使用一个布尔向量表示。可以分析布尔向量,得到反映商品频繁关联或同事购买的购买模式。这些模式可以用关联规则(association rule)的形式表示。

    购买计算机也趋向于购买杀毒软件,可以使用以下关联规则表示:

    Computer => antivirus_software[support = 2%; confidence = 60%]

    关联规则的支持度为2%,意味着所分析的所有事务的2%显示计算机和杀毒软件被同事购买。

    置信度60%意味着购买计算机的顾客60%也购买了杀毒软件

    规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。它们分别反映所发现规则的有用性和确定性。如果关联规则满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。

    1.2频繁项集、闭项集和关联规则

    I = {I1, I2, I3, ... , Im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是一个非空项集,使得 T ⊆ I。每个事务都有一个标识符,称为TID。设A是一个项集,事务T包含A,当且仅当A ⊆ T。关联规则是形如 A→B的蕴含式,其中A⊂I,B⊂I,A不为空,B不为空,并且A∩B不为空。

    规则A→B在事务集D中成立,具有支持度s,其中s是D中事务A∪B(即集合A和B的并或A和B二者)的百分比。它是概率P(A∪B)。

    Support(A→B) = P(A∪B) = P(A&B)

    规则A→B在事务集D中具有置信度c,其中c是D中包含A的事务同时也包含B的事务的百分比。这是条件概率P(B|A)。

    Confidence(A→B) = P(B|A) = P(A&B)/P(A)

    同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。

    项的集合称为项集。包含k个项的项集称为k项集。集合{computer, antivirus_soft-ware}是一个2项集。项集的出现频度是包含项集的事务数,简称为项集的频度、支持度计数或计数。

    Support(A→B) 定义的项集支持度有时称为相对支持度,而出现频度称为绝对支持度。如果项集I的相对支持度满足预定义的最小支持度阈值(即I的绝对支持度满足对应的最小支持度计数阈值),则I是频繁项集(frequent itemset)。

    一般而言,关联规则的挖掘是一个两步的过程:

    (1)找出所有的频繁项集:根据定义,这些项集的每一个频繁出现的次数至少与预定义的最小支持计数(min_sup)一样。

    (2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。 

  • 相关阅读:
    php建立多层目录的函数
    PHP获取远程图片并调整图像大小(转)
    敏捷开发之每日站立会议
    没有所谓的人脉,只有更强的自己
    Linux上使用程序相对路径访问文件【转】
    视频图像处理基础知识1(双线性插值算法描述及实现)【转】
    视频图像处理基础知识4(视频分辨率参考 行频 隔行扫描 逐行扫描)【转】
    IPC网络高清摄像机基础知识4(Sensor信号输出YUV、RGB、RAW DATA、JPEG 4种方式区别) 【转】
    视频图像处理基础知识5(RGB与Ycbcr相互转换公式 )【转】
    视频图像处理基础知识0(双线性插值算法进行图像缩放)【转】
  • 原文地址:https://www.cnblogs.com/EnzoDin/p/11440816.html
Copyright © 2011-2022 走看看