zoukankan      html  css  js  c++  java
  • 时序问题预测思路

    1、先仔细观察数据,看看我们的数据是否有空值、异常值(方差过大),然后看看我们要预测的东西是否肉眼可以看出规律。

    2、看一下我们训练样本是否足够多,如何正确的分成训练集、测试集和验证集。因为有时候特征是时序的,那么我们如果使用

    train_test_split去区分验证集和测试集,会导致我们测试集的样本,在训练集中已经出现了非常相似样本,会导致验证集结果很好,可是到测试集里结果却很差。

    3、明确我们能预测的时间范围,看我们是能预测未来一天的,还是预测未来一周的。

    4、特征工程:

    ①对于时序特征,我们可以取x2-x1,x3-x2,x4-x3作为特征。

    ②如果是回归问题,对结果取log,可以将不符合正态分布的数据,转化为正态分布

    ③可以使用滑动窗口取时序特征,np.mean(np.array([1,2,3,4]).reshape(-1,2),axis=1),这样窗口长度为2,步长stride=2

    5、回归问题一般使用rmsle和mape进行评判

    def calculate_rmsle(pred,y_test):
    arr = np.log(pred+1)-np.log(y_test+1)
    RMSLE = np.sqrt(np.linalg.norm(arr)/len(arr))
    return RMSLE

    标签y必须是大于0的,如果有等于0的情况,需要+1

    def calculate_mape(pred,y_test):
    arr = np.fabs((y_test-pred)/y_test)
    mape = np.sum(arr)/len(y_test)
    return mape

    6、xgboost里面对于one-hot的类别特征构造时,会将不同类别的样本直接独立开来。所以如果我们是类别特征的,不同的类别之间的样本要学习他们的共性的时候,

    如果这个特征之间有顺序的话,比如1,2,3,4,5,6,7代表星期的,他们是有顺序的,我们就还是用这个构造。或者0代表0-1之间的区间,1代表1-2之间的区间,这两个类别之间

    有大小关系的,我们就直接取数字。

    但是如果两个类别之间完全没有先后顺序,比如天气“阴天”和“晴天”,我们就还是取one-hot特征

  • 相关阅读:
    expdp定时备份
    设计模式简介
    利用Python制作万年历
    Linux下Python的安装
    排序算法-直接插入排序
    排序算法-冒泡排序
    数据结构-循环顺序队列&链队列
    数据结构-栈&链栈
    数据结构-双向链表&双向循环链表
    数据结构-单链表&单循环链表
  • 原文地址:https://www.cnblogs.com/yjybupt/p/11951684.html
Copyright © 2011-2022 走看看