（三）特征挖掘

zoukankan html css js c++ java

（三）特征挖掘
特征挖掘的框架

频繁特征挖掘基本概念

1.频繁项集、频繁子序列、频繁子结构

2.关联规则：
- 购物篮问题：电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%]，表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买，而所有购买了电脑的用户中，有60%的用户也购买了软件。
- 计算：
- 关联规则的挖掘本质上是频繁项集的挖掘：两步
a)找到所有的频繁项集;

b)基于频繁项集生成强关联规则;　　
- 难点及解决方案：
当min_sup设置的很小时，会存在大量的项集满足约束条件，开销大==>闭合频繁项集 + 最大频繁项集

a)闭合频繁项集：数据集D中不存在项集Y使得X是其子集且二者支持度数目(support count)相等

b)最大频繁项集：X是频繁项集，且不存在频繁项集使得Y包含项集X

频繁项集挖掘
- 先验(Apriori)算法：发现频繁项集
1.思想：利用频繁项集的先验知识，使用分层搜索的技术，即k项集被用于生成k+1项集

2.先验性质：

目的，提升分层搜索的效率。定义，所有非空频繁项集的子集也应该是频繁项集。

3.L_k-1项集生成L_k项集的过程：两步，join + prune

4.算法：

5.从频繁项集到关联规则：强关联规则是那些即满足min_sup又满足min_conf的频繁项集

6.提升先验算法的效率： a)利用哈希表；b)减少数据量；分割数据；采样；动态项集计数；
- FP-growth算法：解决先验算法开销大的不足
1.算法
- 垂直数据格式(vertical data format)：
1. 定义：传统的{TID:itemset}形式的的数据称为水平数据格式，而垂直数据格式形如{item: TID_set}

2.挖掘方法：每次迭代中将两组频繁TID_set联结在一起

频繁项集的评估

1.原有的support-confidence框架下的关联关系挖掘规则并不完备，有时具有欺骗性；

2.关联规则中的相关性分析：
- lift
其中，lift=1时二者不相关，lift>1正相关，lfft<1负相关
- chi-square
- cosine-similarity
多层、多维空间中的特征挖掘
- 多层关联关系挖掘：
1.定义：从多个抽象层实现关联规则的挖掘

2.方法：　　在支持度-置信度框架下使用概念分层的策略
- 多维关联关系的挖掘：
1.定义：

2.方法
- 量化的关联规则的挖掘：
1.方法：解决离散化过程中的问题，a.利用数据块b.聚类c.统计分析移除异常数据
- 受限的频繁特征挖掘
1.约束类型：数据类型、维度、规则等
- 高纬度与海量特征的挖掘：
1. 目的：弥补频繁模式挖掘中仅仅适用于低维度数据的局限性

2.方法一：利用垂直数据格式来解决数据量小但是高维度的挖掘问题

2.方法二：模式融合　　
- 应用场景
- 方法：将一部分较短的频繁模式作为海量模式候选项，以在模式搜索的过程中绕开纯BDF与DFS挖掘策略的一些陷阱，进而对海量的频繁模式进行很好的逼近
引用：

[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.
查看全文

相关阅读:
PHP 二维数组排序
 linux CentOS7.* 上安装 ffmpeg 扩展
 ajax删除，
ajax的格式、简单使用编写,
多对多作为外键，getset方法实现
 外键介绍，manytomany介绍，filter跨表双下划线
 student学生信息表增删改
 数据库表的增删改查学生信息管理
 session保存信息用数据库
 cookie实现访问index无法访问必须从login走，返回固定的session值,

原文地址：https://www.cnblogs.com/bytedance/p/9166597.html

（三）特征挖掘

特征挖掘的框架

频繁特征挖掘基本概念

频繁项集挖掘

频繁项集的评估

多层、多维空间中的特征挖掘