zoukankan      html  css  js  c++  java
  • 基础特征工程经验

    基础准备

    一、风控建模分类

    1. 授信类建模
    2. 反欺诈建模

    二、反欺诈建模和授信建模的不同

    1. 什么是欺诈?什么是反欺诈?这一切都是由业务场景所决定。
    2. 反欺诈底层是什么?不仅要与相类似的数据比较,还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时,寻找“正常”中的异常。
    3. 怎么做?有监督,无监督,策略。

    三、无监督

    1. 图算法模型(社交网络算法、知识图谱等)
    2. 图数据库(审核策略使用)

    四、有监督

    • 确定欺诈场景。发生了什么?怎么发生?为什么发生?
    • 业务很重要。
    • 特征工程也很重要。

    变量选择

    一、图数据库

    1. 唯一且有识别度的变量,如身份证,联系人+联系人联系方式+地区组合等。
    2. 特定时间内唯一且可识别的变量,如手机号,通讯地址等。
    3. 客户id等内部专用的唯一可识别变量不可用。
    4. 模糊匹配,关联,如gps定位,ip地址等。
    5. 词汇关联,如工作单位等。

    二、有监督学习的变量选择

    • 绝对不能用的变量
    1. 由因变量映射得到的变量
    2. 内部环境才存在的变量,如客户id
    3. 建模时存在,未来确定不会存在的变量(业务)
    4. 不稳定的变量,绝大部分为空值,且bad与good分布差异不大的变量(特征工程)
    • 模型使用效果不好,策略可以使用的变量
    1. 过去存在,将来存在,但截止建模为止大部分客户数据中不存在的变量
    2. 不稳定的变量,绝大部分为空值,且bad与good分布差异很大的变量(特征工程)
    • 业务上强关联但iv并不高的变量怎么使用
    1. 在确定现时模型表现的基础上,再尝试加入。
    2. 对于未来预测影响很大的变量。

    什么是异常?

    1. 人为制造的异常不是异常。
    2. 业务可以解释的异常值并不异常。
    3. 异常:离群值,空值,与其他值显然不同的值,业务不可解释的值
    • 异常值处理
    1. 替代
    2. 归一化、标准化、log transfer等
    3. 异常极值做dummy transfer
    天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
  • 相关阅读:
    元素的高度自适应
    关于IE6的一些常见的CSS BUG处理
    Vue项目在IE浏览器报错polyfilleventsource added missing EventSource to window
    Springboot使用JdbcTemplate RowMapper查询,直接返回实体列表
    Springboot启动工程后,浏览器出现输入用户名和密码
    mysql5.6 zip版本如何安装
    python基础基础知识介绍
    python基础数据类型,集合及深浅copy
    格式化输出
    python基础windows环境下 安装python2和python3
  • 原文地址:https://www.cnblogs.com/Christbao/p/14168629.html
Copyright © 2011-2022 走看看