zoukankan      html  css  js  c++  java
  • 关联规则之Aprior算法(购物篮分析)

    0.支持度与置信度

    《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)

    买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)

    支持度、置信度越大,商品出现一起购买的次数就越多,可信度就越大。

    支持度:在所有的商品记录中有2%量是购买《mahout实战》与《机器学习实战》

    置信度:买《mahout实战》的顾客中有60%的顾客购买了《机器学习实战》

    1.啤酒与尿布

    如何寻找?

    在历史购物记录中,一些商品总是在一起购买。但人看上去不是那么的直观的,而是隐蔽的。让计算机做这事,设计算法让计算机自动去找,找到这样的模式(规律)。

    目标:寻找那些总是一起出现商品。

    mahout实战—>机器学习实战

    《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)

    买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)

    需要达到一定的阈值

    2.明确问题

    1.要找总是在一起出现的商品组合

    2.提出衡量标准支持度、置信度(达到一定的阈值)

    3.给出支持度、置信度直观计算方法

    4.在计算方法中起决定因素的是频繁项集

    5.由频繁项集轻松找到强关联规则

    如果你面对庞大的数据你怎么做?

    找关联规则 首先要找频繁项集

    步骤:

    a.找出所有频繁项集;这个项集出现的次数至少与要求的最小计数一样。

    如在100次购买记录中,至少一起出现30次。

    b.由频繁项集产生强关联规则;这些关联股则满足最小支持度与最小置信度。

    3. Apriori算法

    先验性质:频繁项集的所有非空子集也一定是频繁的。

    逆否命题:若一个项集是非频繁的,则它的任何超级也是非频繁的。

    如果计算机处理步骤:

    image

    snake 之 evolve

    挑战

    多次数据库扫描

    巨大数量的候补项集

    频繁的支持度计算

    改善Apriori:基本思想

    减少扫描数据库的次数

    减少候选项集的数量

    简化候选项集的支持度计算

    image

    image

    3.由频繁项集产生关联规则

    image

    image

    image

    4.置信度

    image

    image

    image

    image

    5.举例: 发现毒蘑菇的相似特征

    image

    image

    image

    image

    image

    image

    image

    image

    image

  • 相关阅读:
    Oracle函数应用与查询聚合统计
    Oracle子查询与分页查询
    DB2端口(转自百度文库http://wenku.baidu.com/view/47809b26aaea998fcc220e65.html)
    职场生涯
    git 管理多个私钥
    ubuntu 解压 windows 生成的 zip 文件乱码问题
    js实现类似于add(1)(2)(3)调用方式的方法
    webkit内核浏览器的CSS写法
    python 单例模式
    Javascript模块化编程:AMD规范及require.js用法【转】
  • 原文地址:https://www.cnblogs.com/chaoren399/p/4870288.html
Copyright © 2011-2022 走看看