zoukankan      html  css  js  c++  java
  • 关联规则中最小支持度和最小置信度

      Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。

    一、支持度
      支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。那么可以选出支持度最高的前n对(以下分析仅考虑两种商品,简称“对”)商品,我通常是选择总对数的万分之一或者是前20个。这样的数量不会很多,可以比较快的进行下一步分析,而且做推荐,要记住一点,“不能急功近利”。

      根据万分之一或者前20,可以得到一个支持度,其实这个时候的支持度阀值,对本次分析已经意义不大了,主要是用于后续推荐系统的智能学习提供一个参考值。

    二、置信度
      置信度就是根据某一个条件,得到一个结论的可信程度、可靠程度。例子中,“购买了尿布”这个条件,可以推出“同时也会购买啤酒”这个结论的可靠程度很高,百度百科关联规则_百度百科 中分析的数据表明沃尔玛尿布到啤酒的置信度高达70%。

      在分析支持度得到的前20对商品中,分别计算双向置信度(购买a同时购买b和购买b同时购买a的置信度都要算),然后筛选中前n个置信度较高的置信度,分析其对应的结论。通过有经验的业务人员,从中共同选出最合理的一对商品,来进行单向的购物车推荐。这时得到的一个置信度,可以作为今后机器学习的参考值。

      个人觉得机器学习要做到全自动,几乎不可能,特别是对于我这种初学者,现在还接触不到。因此个人比较偏向半自动和人工分析辅助来完成一些功能。
     
      作者:知乎吴健
      链接:http://www.zhihu.com/question/22574269/answer/22227427
      离线进行关联规则的运算,在线结合实时访问页面,根据离线计算的关联规则进行实时推荐。
  • 相关阅读:
    次短路
    【学习笔记】Git工具clone异常
    【学习笔记】 UOS安装MySQL
    AcWing 327. 玉米田(状态压缩动态规划)
    我发现了个 Python 黑魔法,执行任意代码都会自动念上一段 『平安经』
    redis主从复制-密码问题
    java远程连接服务器端的redis
    组态王历史趋势图的一些问题
    使用 autofac 实现 asp .net core 的属性注入
    从一切皆数据与计算的角度,理解进程与线程
  • 原文地址:https://www.cnblogs.com/hxsyl/p/5402104.html
Copyright © 2011-2022 走看看