最近在参加征信的数据挖掘与分析,征信通俗点说就是用户的信用度评分。
初步分析已有的数据时,将用户的信用评分分为以下5个维度。
维度:维度的划分是基于已有的数据源所能获得的信息来指定的,当然还有其他的某些数据信息暂时没有添加进来。
维度评分:在初版时,自己估计打分,并没有细究这些分值比例。
维度权重: (当前行维度评分/总评分)* 100
这样就得到我们大概的方向分类,然后我们在细分每个大维度下的小指标,如下表:
最后根据每项指标的不通区间分别指定分值如下表:
这个总的分值区间是300-900,考虑今后可能有减分项,所以保留最低分是300分。
这样一个粗略的用户信用模型基本构建完成,剩余的就是数据的关联和统计了。
综合的思维导图如下,我们一阶段只取了其中的部分指标:
最终我们计算出的分值区间如下图,可以看出在分值340-500之间占了大部分比例。其中分值在340-400之间的用户最多。