zoukankan      html  css  js  c++  java
  • 用户画像之正反占比与TGI

    示例:

    在信贷数据中,征信认证是用户的属性之一,值域是:已认证、未认证。逾期也是属性之一,值域是:已逾期、未逾期。
    要查看不同征信情况对逾期的影响。
     
    计算方式1:
    已认证占比=sum(已认证and已逾期)/sum(已逾期)
    未认证占比=sum(未认证and已逾期)/sum(已逾期)
    即在已逾期的范围里查看是否认证的占比。相加之和是100%。
    问题是,如果未认证的基数特别大,那么99%的未认证占比和1%的已认证占比并不能说明什么,可能约等于已/未认证在总人数中的占比。没有意义。
     
    计算方式2:
    已认证占比=sum(已认证and已逾期)/sum(已认证)
    未认证占比=sum(未认证and已逾期)/sum(未认证)
    即在是否认证两方阵营里查看已逾期的占比。相加之和并不是100%。
    比较两种占比值,那个值高就表示该情况对逾期的影响更大。
     
     
    想起前几日看智能手机的数据分析报告,研究某特定人群里APP的使用情况,多次提及的目标群体指数TGI
     
    *********科普分割线*********
    目标群体指数是一个“倾向性指数”,是指某一子群、某一指标的比例,与总群同一指标比例之比,再乘以标准数100所得的值。目标群体指数可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势;有助于明确目标市场,是设定目标时经常使用的主要工具。
     
    TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。TGI指数表征不同特征用户关注问题的差异情况,其中TGI指数等于100表示平均水平,高于100,代表该类用户对某类问题的关注程度高于整体水平。例如,在15-24岁的人群中,有8.9%的人过去一年内服用过斯达舒,而在总体人群中,服用过斯达舒的人数比例为6.6%,则斯达舒在15-24岁人群中的TGI指数是134.9。假如其他年龄段的TGI指数都远远小于此值,则说明斯达舒的目标群体是15-24岁人群。
    *********科普分割线*********
     
     
    回到本示例,TGI计算方式
    已认证TGI=sum(已逾期and已认证)/sum(已认证)  /   sum(已逾期)/sum(总人数) 
    未认证TGI=sum(已逾期and未认证)/sum(未认证)  /   sum(已逾期)/sum(总人数) 
     
    不难发现,TGI计算方式和计算方式2是大同小异:TGI计算方式比计算方式2多了个分母。
    如果分母不同,那么TGI计算方式就是唯一有效的了,这种情况也挺多的,比如那个智能手机的数据分析,对特定人群下使用多个APP的分析,多个APP的总人数都是不同的,分母自然就不一样了。
     
  • 相关阅读:
    day7 面向对象 静态方法 类方法 属性方法 类的特殊成员方法 元类 反射 异常处理
    day6 面向对象 封装 继承 多态 类与实例在内存中的关系 经典类和新式类
    day5 time datetime random os sys shutil json pickle shelve xml configparser hashlib subprocess logging re正则 python计算器
    kafka常用操作命令
    linux基础
    django学习1——初识web应用程序
    mysql数据库(三)——pymysql模块
    mysql数据库(二)——表的查询
    mysql数据库(一)
    Python常用模块——re模块
  • 原文地址:https://www.cnblogs.com/myshuzhimei/p/11713071.html
Copyright © 2011-2022 走看看