zoukankan      html  css  js  c++  java
  • 测试数据的整理(1)

    “星文快投”的目标,始终都是想做一个投标工具,不涉及策略。但事与愿违,没有数据支撑,所有操作都变得像在迷雾中前行,既不知道前进方向,也不知道前面是否有大坑等着。所以,还是尝试着用一些实际数据,来衡量所选择的策略,至少能够提供量化的对比作为参考。

    关于数据,拍拍贷提供了数据接口LoanList和BatchListingInfos,不过当下主要任务是对策略的最核心属性——逾期率分析,这些接口更加适合抓取最新的标的,对历史标的抓取并不好。关键是——数据太新的话,其实是不准的,这个在后面的试用中可以看到。

    我选用了拍拍贷竞赛提供的数据,包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标的样本数据,不仅有标的特征表,还有标的还款计划和还款记录。简单说,包括了32万个标的,320万条还款数据。由于是真实数据的样本,具有很高的参考价值。

    image

    还款计划表

    但是,官方数据也存在问题,主要有:

            1、标的特征表字段不全。比BatchListingInfos获取的字段要少很多,意味着无法使用所有属性来构造策略了。

            2、一些属性对不上号。如淘宝认证。

            针对这个问题,费了很大功夫,对数据进行了处理,补齐了所有字段,得到了一个投标样本数据库,包含了32万条真实标的数据,以及这些标的到2017-2-22时的还款情况。在此,不得不称赞一下sqlite,处理这么大的数据,非常轻松。

    image

    对真实数据计算逾期率,非常有趣。另外,也能发现逾期率与借款时间有很强的相关性。但我需要的只是一个具有相对可靠性的评估,能够量化比较不同策略的效果即可,所以并不打算进行非常详细的逐月比较。最终,我选择的是一段相对稳定的时间,2016年4月以前的453天的数据,这段时间逾期率处于稳定状态。

    最后,简单提一下实现。策略的评估是非常高频而极度消耗资源的任务,所以把它放在另外的服务器上,不会影响到主服务器上的投标效率。

  • 相关阅读:
    4g内存装64位WIN7好还是32位好(遇到问题,百度后解除疑惑)
    Windows Phone 7.5 “Mango”消息泄露 支持HTML5和Silverlight
    Tiobe发布2010年12月开发语言排名
    Adobe:Flash 10.2将全面提升性能
    ADO.NET Entity Framework使用实体数据
    使用GPU.NET针对GPU编程
    ADO.NET Entity Framework入门(实体框架)
    完美程序员的10种品质
    ADO.NET Entity Framework(实体框架)
    不适合当一名开发人员的10种迹象
  • 原文地址:https://www.cnblogs.com/jetz/p/7444285.html
Copyright © 2011-2022 走看看