机器学习算法系列（2）Apriori关联分析详解

zoukankan html css js c++ java

机器学习算法系列（2）Apriori关联分析详解
一、 Apriori关联分析概述

选择物品之间的关联规则也就是要找出物品之间的关系，要找到这种关系有两步
1. 找出频繁一起出现的物品集的集合，我们称之为频繁项集，比如一个超市的频繁项集可能有{{啤酒，尿布}{鸡蛋，牛奶}{香蕉，苹果}}
2. 在频繁项集的基础上，使用关联规则算法找出其中的关联结果
  也就是先找到频繁项集，再根据关联规则再找出关联物品
二、关联分析的几个概念

这里有一份交易记录
编号 0 1 2 3 4 5
购买商品集合 {牛奶，洋葱，豆蔻，芸豆，鸡蛋，酸奶} ，{菠萝，洋葱，豆蔻，芸豆，鸡蛋，酸奶}，{牛奶，独角兽，玉米，酸奶}，{玉米，洋葱，洋葱，鸡蛋}

2.1 关键概念

支持度：支持度可以理解为商品的流行程度

支持度 = （包含物品A的记录数） / (总的记录数）

用上面的例子举例，一共有5次交易，牛奶出现在3次交易中，故牛奶的支持度3/5

置信度置信度是指如果购买A，则有较大可能性购买B

置信度 (A>B) = （包含物品A和B的记录数量）/（包含A的数量）

举例：我们已经知道，（牛奶，鸡蛋）一起购买的次数是两次，鸡蛋购买次数是4次，那么confidence(牛奶> 鸡蛋）的记录就是2/4

提升度：提升度指当销售一个物品时，另一个物品的销售率会增加多少，计算方式是：

提升度（A>B) = 置信度 (A>B)/支持度A

当提升度大于1的时候，表示A卖的越多，B也会卖的越多。提升度等于1表示产品A和B没有关联。最后提升度小于1则意味着购买A 反而会减少B的购买

举例：上面我们说的牛奶和鸡蛋的置信度是2/4，牛奶的支持度是3/5，那么就能计算出牛奶和鸡蛋的支持度0.83

2.2 关联规则

如果一个关联结果的置信度低，那么所有超集的置信度也低

Apriori算法介绍

支持度越高，物品越受欢迎，那么支持度是怎么决定的呢，这个是我们主观决定的，我们会给Apriori提供一个最小支持度参数，然后Apriori会返回比这个最小支持度高的那些频繁项集

利用一个思想加速运算：如果一个项集子集是不频繁的，那么他的超集也都是不频繁的，例如如果发现项集{A,B}是非频繁的，那么他所组成的超集也是非频繁的{A, B, C}, {A, B, D} 等等我们就可以去忽略不计了

三、 Apriori算法流程

要用Apriori算法，我们需要提供两个参数：数据集和最小支持度，Aprori算法会通过递归遍历所有的数据集组合，先遍历一个物品组合的情况，剔除掉支持度低于最小支持度的数据项，然后用剩下的物品进行组合，遍历两个物品组合的情况，再剔除不满足条件的组合。不断递归下去，直到不再有物品可以递归组合。
```
# def apriori(df, min_support=0.5,use_colnames=False, max_len=None)
# df 数据集
# min_support 给定的最小支持度
# use_colnames 默认为false,返回物品编号的组合显示，为True的话直接显示物品名称
# max_len 最大物品组合数，默认为NOne,不做限制。如果只想返回两个物品组合的话，便将这个设置为2
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
# 设置数据集
dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['牛奶','苹果','芸豆','鸡蛋'],
        ['牛奶','独角兽','玉米','芸豆','酸奶'],
        ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']]
te = TransactionEncoder()
# 进行onehot编码
te_any = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_any, columns= te.columns_)
df
# 利用Aprori算法找出频繁项集
freq = apriori(df, min_support=0.6, use_colnames=True)
from mlxtend.frequent_patterns import association_rules
result = association_rules(freq, metric='confidence',min_threshold=0.6)
result.sort_values(by='confidence',ascending=False).head(10)
```
查看全文

相关阅读:
英语Lignaloes沉香木LIGNALOES单词
 英语chrismatite黄蜡石chrismatite单词
 英语cartialgenous鹿茸cartialgenous单词
 英语NanyangJade南阳玉NanyangJade独山玉
 单词chalchiguite硬玉chalchiguite英语
 英语_金丝楠是紫楠(phoebeSheareri)的别名
 英语AquilariaCrassna奇楠沉香
 英语LIGNALOO沉香lignaloo单词
 iOS批量添加SDK自动打包GUI工具
 如何做一个跨平台的游戏App?

原文地址：https://www.cnblogs.com/yangjiez/p/12032596.html

机器学习算法系列（2）Apriori关联分析详解

一、 Apriori关联分析概述

二、 关联分析的几个概念

2.1 关键概念

支持度 ：支持度可以理解为商品的流行程度

支持度 = （包含物品A的记录数） / (总的记录数）

置信度 置信度是指如果购买A，则有较大可能性购买B

置信度 (A>B) = （包含物品A和B的记录数量）/（包含A的数量）

提升度：提升度指当销售一个物品时，另一个物品的销售率会增加多少，计算方式是：

提升度（A>B) = 置信度 (A>B)/支持度A

2.2 关联规则

Apriori算法介绍

利用一个思想加速运算：如果一个项集子集是不频繁的，那么他的超集也都是不频繁的，例如如果发现项集{A,B}是非频繁的， 那么他所组成的超集也是非频繁的{A, B, C}, {A, B, D} 等等我们就可以去忽略不计了

三、 Apriori算法流程

二、关联分析的几个概念

支持度：支持度可以理解为商品的流行程度

置信度置信度是指如果购买A，则有较大可能性购买B

利用一个思想加速运算：如果一个项集子集是不频繁的，那么他的超集也都是不频繁的，例如如果发现项集{A,B}是非频繁的，那么他所组成的超集也是非频繁的{A, B, C}, {A, B, D} 等等我们就可以去忽略不计了