zoukankan      html  css  js  c++  java
  • (三)特征挖掘

     特征挖掘的框架

    频繁特征挖掘基本概念

    1.频繁项集、频繁子序列、频繁子结构

    2.关联规则:

    • 购物篮问题:电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%],表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买,而所有购买了电脑的用户中,有60%的用户也购买了软件。
    • 计算:

    • 关联规则的挖掘本质上是频繁项集的挖掘:两步

    a)找到所有的频繁项集;

    b)基于频繁项集生成强关联规则;  

    • 难点及解决方案:

    当min_sup设置的很小时,会存在大量的项集满足约束条件,开销大==>闭合频繁项集 + 最大频繁项集

    a)闭合频繁项集:数据集D中不存在项集Y使得X是其子集且二者支持度数目(support count)相等

    b)最大频繁项集:X是频繁项集,且不存在频繁项集使得Y包含项集X

    频繁项集挖掘

    • 先验(Apriori)算法:发现频繁项集

    1.思想:利用频繁项集的先验知识,使用分层搜索的技术,即k项集被用于生成k+1项集

    2.先验性质:

    目的,提升分层搜索的效率。定义,所有非空频繁项集的子集也应该是频繁项集。

    3.L_k-1项集生成L_k项集的过程:两步,join + prune

    4.算法:

     

     5.从频繁项集到关联规则:强关联规则是那些即满足min_sup又满足min_conf的频繁项集

     6.提升先验算法的效率: a)利用哈希表;b)减少数据量;分割数据;采样;动态项集计数;

    • FP-growth算法:解决先验算法开销大的不足

    1.算法

    • 垂直数据格式(vertical data format):

    1. 定义:传统的{TID:itemset}形式的的数据称为水平数据格式,而垂直数据格式形如{item: TID_set}

    2.挖掘方法:每次迭代中将两组频繁TID_set联结在一起

    频繁项集的评估

    1.原有的support-confidence框架下的关联关系挖掘规则并不完备,有时具有欺骗性;

    2.关联规则中的相关性分析:

    • lift

    其中,lift=1时二者不相关,lift>1正相关,lfft<1负相关

    • chi-square
    • cosine-similarity

    多层、多维空间中的特征挖掘

    • 多层关联关系挖掘:

    1.定义:从多个抽象层实现关联规则的挖掘

    2.方法:  在支持度-置信度框架下使用概念分层的策略

    • 多维关联关系的挖掘:

    1.定义:

    2.方法

    • 量化的关联规则的挖掘:

    1.方法:解决离散化过程中的问题,a.利用数据块b.聚类c.统计分析移除异常数据

    • 受限的频繁特征挖掘

    1.约束类型:数据类型、维度、规则等

    • 高纬度与海量特征的挖掘:

     1. 目的:弥补频繁模式挖掘中仅仅适用于低维度数据的局限性

     2.方法一:利用垂直数据格式来解决数据量小但是高维度的挖掘问题

    2.方法二:模式融合  

    • 应用场景
    • 方法:将一部分较短的频繁模式作为海量模式候选项,以在模式搜索的过程中绕开纯BDF与DFS挖掘策略的一些陷阱,进而对海量的频繁模式进行很好的逼近

     引用:

    [1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.

  • 相关阅读:
    VMware 怎么创建虚拟机
    强制css属性生效
    Linux中的文件权限
    Linux中的文件操作
    Halcon学习:缺陷检测
    Halcon学习:简单目标检测(人脸识别)
    Halcon学习:静态车牌识别
    Halcon学习:坏点检测
    Halcon学习:图像的傅里叶变换
    Halcon学习:图像滤波
  • 原文地址:https://www.cnblogs.com/bytedance/p/9166597.html
Copyright © 2011-2022 走看看