算法学习笔记：关联分析（转）

zoukankan html css js c++ java

算法学习笔记：关联分析（转）

刚接触数据挖掘，就免不了要听到沃尔玛的啤酒与尿布的典故，是不是真的就不知道了，确定的是这个典故用的就是关联分析。

一、概念理解

置信度、支持度、提升度是评价关联规则的三个重要指标。

样本100，条件A=》结果B，A：60，B40，同时发生A和B：30

则：

条件支持度=P(A)=条件A60/样本100=0.6

结果支持度=P(B)=结果B40/样本100=0.4(在sas中称为预期置信度)

规则支持度=P(A&B)=30/100=0.3

规则置信度=P(B|A)=P(A&B)/P(A)=30/60=0.5,即同时发生的记录数除以样本数，

提升度=P(B|A)/P(B)=0.5/0.4=1.25

，注意不要混淆了条件支持度和规则支持度，网文好多只说支持度，实际上有的指的条件支持度、有的值规则支持度，我今天搞了一早上才恍然大悟，效率低啊，自我鄙视一下。

在spss的apriori的运行结果中还有部署能力的概念，观察了一下，发现：部署能力=条件支持度-规则支持度，就是说还有多少人有发展空间，比如有10人，符合条件的有7人，同时如何条件和结果的有4人，那部署能力就是7-4=3人了。

二、算法

关联分析基本就是Apriori算法，没用过其他的。

apriori算法的具体实现就不说，暂时我也说不清楚，我只追求会用，不求甚解，只知道大概步骤就是：1、根据设置的条件支持度找出频繁项集；2、分析找出来的这些频繁项集，得出规则；3、找出大于或等于给定置信度的规则。

一般各个dm软件跑apriori算法的时候都需要设置：最小条件支持度，最小规则置信度，有的还需要设置最大前项数，spss的modeler就需要设置这三个。

查看全文

相关阅读:
linux-2.6.32在mini2440开发板上移植（1）之移植Nand驱动并修改分区信息
 编程错误
 汇编语言程序设计读书笔记（4）- 程序设计基础之一
 汇编语言程序设计读书笔记（3）- 程序范例
 汇编语言程序设计读书笔记（2）- 相关工具64位系统篇
 将博客搬至CSDN
汇编语言程序设计读书笔记（1）- 相关工具
 CentOS v6.4 64位系统编译linux3.0.8内核错误的解决
 用J-LINK烧写Bootloader到ARM开发板的Nand Flash
Keil MDK使用J-LINK分别在Sram，Nor Flash以及Sdram中调试代码的原理和方法

原文地址：https://www.cnblogs.com/gary-bao/p/4568412.html