1.现状
1)为啥诈骗检测的难度高:
诈骗的定义很模糊,很多情况下客户都根本不知道具体的诈骗
表面上诈骗是一个二分类问题(是或者不是),但仔细想想是一个多分类问题,因为每种不同的诈骗都可以当成一个单独的类型
单一类型的诈骗非常之多,普遍存在,同时诈骗的手段也在千变万化。需要不断更新检测手段,不能把赌注押到一个模型上
2)问题:
数据没有明确的标签,各类数据需要专家定义,有监督学习方法使用首先
诈骗案件的检测难度大,有时候都需要发挥想象力和直觉
有价值数据分布零散,整合成结构化有难度
多种诈骗数据混合在一起,区分不同的诈骗类型难,如果不仔细区分定义也会给带来代价。原因:能理解每一类诈骗的定义
3)风险:
通过诈骗的历史数据有监督学习,根据历史数据学习的模型检测的更多的是出现过与历史诈骗相似的诈骗,对于变种诈骗和未知类别诈骗,模型有时无能为力
在实际情况中,不能单纯依靠一个监督学习模型来奢求检测到所有的诈骗
2.可用技术方法
1)对诈骗数据进行结构化整理,同时进行必要的数据可视化,观察数据潜在的重要信息
2)引入时序信息,如果数据中含有以时间主线变化的特征,可以在该时许节点上做分析,什么时候出现反常,找出异常值作为高风险样本。通过时序分析,发现异常点
3)对于不受时间影响的特征,采用适用的模型去做
4)单纯依靠机器学习模型来检测诈骗是不恰当的。比较可行的方法是做混合模型:人为规则+机器学习合二为一,人机共同给学习,综合评判
通过对历史数据详细分析,能够得出一些非常可靠的评判标准。以微信聊天为例,如果当前账号的好友有3k+人数,在短时间内同时和上百个好友聊天,这种情况存在诈骗风险就非常高。
类似这种标准很简单、明确,是模型学习不到的信息,可以看到这种方法成本更低也更有效;这也说明不仅仅是从文本数据本身去挖掘,更多地是融合个体的多种属性直观地先去分析,不迷信自动模型
要求样本的形式不仅仅是文本,要包含完整的本体数据
归纳特征并构造一个故事,从经验中提炼强规则,同领域专家验证故事的可靠性
5)规则+机器学习,进一步调参优化模型,验证在新数据的性能
3.注意
1)重点放在业务上而不是具体的模型,选择合适的方式解决各个环节所遇到的问题
2)无监督结果不可控,缺乏解释性;训练样本充足的情况下,有监督绝对为王;半监督,人与机器共同学习,循环迭代,直至最优
3)强规则可以快速实现,准确率高,而召回率是取决于规则制定者,主观性强
4)特征和数据决定系统上限
5)诈骗检测,核心问题就是异常检测,分析的过程中主抓异常点、关键问题
4.评估
1)模型评价:AUC(首要)、F1、recall
2)主客观评价:结合人工和模型综合评判