常常有人问起来,模型和策略之间到底是个什么关系。其实往往,模型是策略流程中非常重要的一个环节:可以直接根据评分卡分数拒绝掉一部分客户,或着根据分数走不同的审批流程、使用不同的额度策略。
那么问题就在于,这个划分的切点到底应该定在哪里?到底违约概率高到什么程度的客户需要走人工电核?这个问题,可不是等频或等距切分就可以随随便便解决的了,下面介绍三种量化的方法。
违约率&通过率
通过违约率和通过率切分可以说是最简单粗暴的了,但是前提是已经有一个确定好的违约率or通过率。比如说,我就是希望会有30%的客户通过,那就可以找全量样本(需要是无偏的)的分数30%分位数的水平,作为一个切分标准;或者说我希望违约概率在5%以上的样本直接拒绝,那就寻找5%违约概率对应的分值即可。
KS值
大家都知道KS值的计算公式为累计坏样本比例 - 累计好样本比例的最大值,也就是说取到最大值的这个点好坏区分是最开的,这个点对应的分数可以说是一个很优秀的切分点了。
以上图为例,粗略来看,700分的时候累计坏 - 累计好达到了最大值,可以考虑作为一个切分点。但是这个点具体是高风险和中风险的分界线,或者是中风险和低风险的分界线,又或是用作其他用途,就要综合考虑通过率和坏样本率来决定了。
F-score
模型决策的过程通常是精准率和召回率的权衡,其中精准率precision = TP / (TP + FP),即被判定为坏中实际为坏的比例;召回率recall = TP / (TP + FN),即有多少坏样本被判断为坏样本,简单点说就是累计坏样本率。
而F-score,就是一个综合考虑了精准率和召回率的指标,是它们的加权调和平均值:
其中β是一个用于调整精准率和召回率权重的指标,在下面的例子中我们取β=1,认为两者权重是相等的。
可以看到在600分的时候,F-score取到了最大值,意味着这是在该衡量标准下最有效的切分点。
在本文的例子中,我们得到了600分和700分两个数据层面最优的切点,在实际运算的时候可以切分的更细,得到更加精确的值。然而在真正做决策的时候,用哪个,怎么用,都是要结合违约率和通过率以及其他业务逻辑综合考虑的。