zoukankan      html  css  js  c++  java
  • 阿里天池全国社保比赛心得

           最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个思路,1.从就诊记录入手,找到可疑的就诊记录,然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过,最终选择了后者,因为题目给出的欺诈标签主要是人的欺诈标签,并没有给出某次就诊行为的欺诈标签。另外,此次的评测指标是F1值,这个非常重要,你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。

    一、特征

    可能没参加比赛前很难理解特征决定上限的这个真理,特征特征才是最重要的!

    一定要看特征重要度,要不断尝试,有些组合到一起反而降低,有些特征看着不重要,你把他去了 可是结果却会出现下降的情况,因为特征和特征之间是有关系的。

    在重要特征做深入处理的收益远大于在次要特征中继续做。

    汇总信息有些时候会丢失信息,比如我们最开始将医院数据进行了汇总,计算每个人去一级医院,二级医院,三级医院的个数,反而没有把所有医院的维度扩充好。

    观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费,有治疗费分别出现不同的就诊id,包括挂号的费用也是不同的id,我们认为其实是一次就诊,所以进行相应汇总。

    要保证测试集和训练集一起处理,否则会出现两者特征不匹配

    二、模型

    后期为了提高泛化能力,基本都会进行模型的融合,最后我们是用了三个GBDT的模型进行的融合。而这三个模型的选取,其中一个就是我们每次提交用到的那些特征(有些降低了排名的就舍弃的特征,只有200多维),另外两个使我们把我们历史用到的所有的特征(600多维),进行特征重要度的选择(选了一个100维、一个120维),神奇的发现之前一些舍弃的特征之间居然可能发生了相互作用,所以模型效果还可以。所以一些最开始的一些加进去使得排名下降的特征不要直接丢弃,最后特征融合的时候可能反而用上了。

    三、评测指标F1和调参

    过拟合问题一定要非常小心,初赛的时候我们就完全犯了错误,直接根据排行榜的成绩来调我们的模型和特征。尤其是因为最终评价指标是F1值,01阈值的选取对F1影响比较大,而我们就一直根据排名调我们的阈值,最后调到A榜排名前,但是其实是过拟合,B榜排名降了几十名,还好还是进复赛了。

    最后复赛吸取教训,还是调参还是要相信CV的结果,训练数据分成5份,前面4份作为训练集,在第5份上验证,然后再次训练,在1235上训练,第4份上验证,然后对不同份进行循环,这么做你会对哪组超参数表现更加稳定更确定,最后你可以用这组超参数对整个训练集训练。随机数的种子对结果可能也有影响,有些时候种子的结果好,但实际的结果不一定是这样的,所以还是相信cross_validation的结果吧

    另外看到别人的经验,,为了反映某个特征的对于模型的性能提升与否,不能只单单看最后 5 折的平均 auc 是否提升,而是确保,每一折或者至少其中 4 折都要有提升,这样 才能确保加入的特征不会影响模型的稳定性。

    最后我们阈值的选取是根据CV大概负样本的比例来决定的,而不是直接用模型默认的0.5作为分割

    四、阿里平台

    复赛必须使用阿里的平台,主要是根据帮助文档来学的,将之前用python构造的特征重新用SQL构造,虽然觉得不方便,也是相当于解决相同问题的不同途径,也学了好多以前不会的函数,比如percent_rank()函数的使用等等。时间窗口用SQL做折磨死我们了,包括一个人连续住院的最大天数,最后找到一个奇妙的解决方案,生成一个序列号,然后将日期转化为天数,然后做差,再Groupby 。阿里PAI平台上没有xgboost模型,但是IDE(大数据开发套件)上可以使用。

    DROP OFFLINEMODEL IF EXISTS testXgboost_cv_2_388;

    PAI

    -name xgboost

    -project algo_public

    -Dobjective="binary:logistic"

    -Deval_metric="auc"

    -Deta="0.1"

    -Dseed="0"

    -Dnum_round="128"

    -Dmax_depth="6"

    -Dmin_child_weight="4"

    -Dgamma="0"

    -Dsubsample="0.8"

    -Dcolsample_bytree="0.8"

    -DmodelName="testXgboost_cv_2_388"

    -DinputTableName="pai_temp_60326_831172_1"

    -DlabelColName="label"

    -Dmax_delta_step="1"

    -DfeatureColNames="approve,max_month_count,self_pay_sum_add。。。";

     

    drop table if exists xgb_825_cv2_388;

    pai -name prediction

    -DmodelName="testXgboost_cv_2_388"

    -DinputTableName="pai_temp_60326_831173_1"

    -DoutputTableName="xgb_825_cv2_388"

    -DappendColNames="pid,label"

    -DfeatureColNames="approve,max_month_count,self_pay_sum_add。。。;

     

    最后 团队的力量真的很重要,能取得那么前的排名,主要是我的领导带着我一起做的,头脑风暴,开脑洞想特征真的很重要!

    比赛链接如下

     https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100068.5678.1.FPmdTB&raceId=231607

     

  • 相关阅读:
    hdu 5001(概率DP)
    hdu 5505(数论-gcd的应用)
    csu 1749: Soldiers ' Training(贪心)
    Button Bashing(搜索)
    Jury Jeopardy(反向模拟)
    interesting Integers(数学暴力||数论扩展欧几里得)
    湖南省第六届省赛题 Biggest Number (dfs+bfs,好题)
    csu 1551(线段树+DP)
    csu 1555(线段树经典插队模型-根据逆序数还原序列)
    csu 1552(米勒拉宾素数测试+二分图匹配)
  • 原文地址:https://www.cnblogs.com/fionacai/p/7560287.html
Copyright © 2011-2022 走看看