1. 可通过其他属性推断一些缺失值:
缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。
- 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性;
- 费率可以推测被保人的性别,年龄
- 一般来说,吸烟者都会在系统中有标识,所以没有标志的可认定为不吸烟者
- 根据职业也可推测性别
- Modal/Annualized premium推测缴费频率
- 未成年人(各国标准不同,须注意)的婚姻状态
- 根据现有的数据线性拟合预测缺失值。如身高、职业、国籍、年龄等,可拟合出体重数据
2. 创造特征
- 从不同的角度看待现有特征而创造。日期类型的特征在算法中很难直接使用,可转换为其他特征。如生日,可根据特定的目的变为“当时的年龄”“现在的年龄”“第一次购买时的年龄”“初次住院年龄”等
- 从POS中发现特征。如“搬家次数”“通勤时间长短”“加减保的频率”“曾改名”。
- 从特定的业务规则中提取。如拥有FATCA账户或“一卡通”的被保人可被认为“支付能力高”
3. 准备一张厚脸皮,虚心讨教业务人员
《待补充》
回顾下来,渐渐明白为何找不到一本书能够系统地介绍特征工程了,因为各行各业的特点不一样,很难抽象出通用的知识点或者说技巧。
暂时以大神的一句话做结尾吧:
Actually the success of all Machine Learning algorithms depends on how you present the data.
— Mohammad Pezeshki