zoukankan      html  css  js  c++  java
  • Preppin' Data 每周一挑战 数据关联分析--购物蓝分析法。

    20年15周挑战:数据关联分析--购物蓝分析法。

    https://preppindata.blogspot.com/2020/04/2020-week-15.html

    中文参考   https://blog.csdn.net/qq_36523839/article/details/83960195 

    英文参考:https://gwilymlockwood.com/2019/09/18/market-basket-analysis-in-but-not-limited-to-alteryx/

    简介--购物篮分析法 (Market basket analysis)

    发出的问题:

    当公司的一个产品销量很好,并有一个稳定的客户群。公司能否做关联性推销?即向推销这个客户群推销某种他们可能感兴趣的商品。

    如何更有针对性的向这个客户群体推销产品?即保证推销的产品一定是这个客户群所感兴趣的,购买欲望强,成功率高?

    数据关联分析方法:

    购物篮分析能够帮助公司面对这个问题提供有效的帮助!

    其实这个分析法是一种数据关联分析。

    关联分析--frequentItems,  association, support, confidence, lift 

    关联规则: X->Y, 即购买了X,那么也会购买Y。

    TransactionID Items
    x001     razors, shaving soap
    x002     moisturiser, hand soap
    x003     bath bomb, hand soap, moisturiser
    x004     hand soap, moisturiser, shaving soap
    x005     razors, moisturiser

    频繁项集:frequent items.

    频繁项集是指那些经常出现在一起的物品,从数据集中可以找到类似X->Y的关联规则。那如何定义和表示频繁项集和关联规则呢?这里引入支持度support和可信度(置信度)Confidence。 

    支持度:support

    包含某个数据集的记录占所有记录的比例,某商品(1个或多个)被交易的次数 / 所有交易的次数。本例子:handsoap被购买了3次,总交易5次,因此支持度是:3/5=0.6

     

    置信度:Confidence

    可信度(置信度):针对如「护手霜->肥皂」这样的关联规则来定义的。

    因为支持度的分母都是5,所以就是购买次数的比较:3/4=0.75
    如果反过来求 肥皂->护手霜的置信度: 3/3=1,  因为每次买护手霜必然买肥皂。  

    公式: (x->y)的支持度 / x的支持度 ,即支持度{护手霜,肥皂} / 支持度{护手霜}。  

    白话表述: 客户购买x商品多次,其中有数次同时购买了Y商品,那么“买x商品必然会买y商品”这句话的可信度是多少? 同时购买x和y的次数 / 购买x的次数,就是可信度。

    lift规则提升度

    规则提升度,表示含有先导项条件下同时含有后继项的概率,与后继项总体发生的概率之比。

    假设,按照支持度,买肥皂0.6和护手霜0.8,那么我们认为两个都买的情况是:0.6*0.8 =0.48,我们因此认为一半人都会同时购买这2类商品。但实际上两个都买的支持度是0.6. 超出了我们认为的0.48。

    lift就是: 0.6/0.48 = 1.25  (x->y)的支持度/(x的支持度*y的支持度)

    转化上面的公式:则可以使用置信度来计算lift:  (x->y)的置信度 / y的支持度 0.75/ 0.6 = 1.25

    个人认为; lift > 1 则超出预期猜测,lift < 1 则低于预期猜测。

    其他相关概念

    1. 集合,超级集合
    2. 最小支持度,频繁项集
    3. Closed frequent items闭合的频繁项集
    4. 最大的频繁项集maximal frequent items

    解释:

    一个集合在另一个集合内,则分别叫做集和超级集(就是包含关系)

    通过人为指定一个最小支持度,来定义一组交易中的频繁项集。

    Closed frequent items闭合的频繁项集: 特指某个集与的它的超级集比较,它的交易次数多于它的超级集的频繁集合。

    maximal frequent items:首先它是闭合的频繁项集,其次它的超级集合不是频繁出现的(即超级集的支持度 < 设定的最小支持度),即x集合是频繁出现的,但它的超级集合不是频繁出现的。

    上面的概念参考这篇文章: 

    https://gwilymlockwood.com/2019/09/18/market-basket-analysis-in-but-not-limited-to-alteryx/

    ⚠️购物蓝分析其实已经有现成的app可用。并且优化了算法,适合较大的数据。

    本周的挑战:使用prep进行1对1的关联分析

    答案分析:https://preppindata.blogspot.com/2020/04/2020-week-15-solution.html

    文章流程是分析所有的1对1的购买confidence , lift分析

    视频是指进行部分1个商品->1个商品/2个商品的的分析。

    我的做法是根据文章对全部的1对1进行关联分析。

     

    分为4部分:

    1. 开始
    2. 上分支:算每个商品的支持度
    3. 下分支:算所有发生的1对1商品的可信度。
    4. 上下表join, 然后算Lift提升度。

    2

    3

    4

    5

  • 相关阅读:
    IE下判断IE版本的语句...[if lte IE 6]……[endif]
    “浏览器模式”和“文档模式”
    IoC框架---通俗概述
    Castle IOC容器组件生命周期管理
    Castle学习笔记----初探IOC容器
    Castle IOC容器内幕故事(下)
    Castle IOC容器内幕故事(上)
    Castle IOC容器构建配置详解(二)
    javascript属性一览
    javascript addEventListener方法
  • 原文地址:https://www.cnblogs.com/chentianwei/p/12780454.html
Copyright © 2011-2022 走看看