上篇4_Random Forests and K-Nearest Neighbours
5 总结
5.1 关于这个项目
我们的目标是根据历史数据,利用时间和天气来预测建筑的能源需求。该模型将产生准确的能源需求预测,这将有助于智能电网技术的发展。如果哈佛大学能够预测所有校园建筑的能源需求,他们将能够优化冷却器、锅炉和能源存储系统的操作。
有三种能源消耗:电力、冷水和热水。冷水用于冷却,蒸汽用于加热。冷水和蒸汽由中心工厂产生,并像电力一样输送到建筑物中。
Image source: http://www.compression.org/distributed-energy/district-energy-distributed-energy-deschematic-640w/
我们尝试了五种机器学习方法。
(1)线性回归(LR)
(2)支持向量回归(SVR)
(3)高斯过程回归(GP)
(4)随机森林(RF)
(5) k近邻(KNN)。
5.2 探索性分析的结果
电力消费模式
电表现出强烈的周期性。你可以清楚地看到白天和晚上,工作日和周末的区别。
似乎在每个学期中,期末考试的用电量都会达到峰值,这可能代表了学习模式。学生们正越来越努力地准备期末考试。学期结束后会有一个假期,包括圣诞假期。1月和夏季学期的用电量相对较低,而春假期间校园可以相对空闲。(本文部分由Steven提供)
能耗与特征的关系
电力与天气数据(温度)无关。利用天气信息来预测电力是行不通的。我认为这主要取决于时间/入住率。但是我们仍然可以做一些模式探索来找出白天/晚上、工作日/周末、学校日/假期的用电模式。实际上,我们应该从月度数据中注意到这一点。
冷水和热水与温度、湿度密切相关。冷水、热水消耗量与冷热度呈良好的线性关系。即使是简单的线性回归也可能已经相当准确了。然而,利用天气信息来预测每小时的冷水和热水是不够的。
5.3 不同机器学习方法的预测精度
线性回归
该方法的优点是:简单、快速。
该方法的缺点是:大数据集的结果较差。例如,每小时预测。
支持向量回归
高斯过程回归
随机森林
K-Nearest Neighbours
请注意,在随机森林和k近邻方法中,与其他方法相比,训练集更大,测试集更小。
对于KNN和RF的预测,如果对不同类型的能量仔细选择特征,其准确性可能会提高。例如,热水与除湿和冷却度无关,而除湿和冷却度是为冷水设计的。此外,根据我们的探索性分析,压力、太阳辐射、风向和风速对能源使用没有影响。把它们包括在预测中是没有意义的。
由于时间限制,我们没有对所有方法进行逐时预测。
6 结论
日消耗
冷水和热水预测
探索性分析表明,每日冷水量和热水消耗量与冷热度呈良好的线性关系。即使是简单的线性回归也可以很好地预测每日冷水和热水消耗量。
高斯过程回归法和随机森林法的预测效果略好于其他方法。然而,随机森林预测使用的训练集更大,测试集更小。随机森林的训练测试比为2.4:1,其他方法的训练测试比为1.1:1。因此,这不是一个公平的比较。如果使用相同的训练和测试集,RF的准确性可能会降低。
每日用电
日用电量与天气无关。居住/计划/学习模式对日常用电有很大的影响。
高斯过程回归优于其他方法。
每小时消耗
每小时的预测比每天的预测要困难得多。首先,数据样本很大。因此,训练一个模型是非常耗时的,特别是对于那些计算量大的方法。其次,每小时消耗的噪音和方差远远大于每天。
高斯过程回归很好地预测了每小时的能源需求。
线性回归预测采用较大的训练集和较小的检验集,线性回归的训练检验比为2.8:1 ~ 8.7:1,高斯过程回归为1.1:1。因此,这不是一个公平的比较。使用相同的训练集和测试集,线性回归预测小时数的准确性可能会降低。
由于时间的限制,我们没有尝试所有的小时预测方法。
赢家是高斯过程回归。
毫无疑问,即使在不公平的比较中,高斯过程回归也比其他方法表现得更好。然而,这并不意味着高斯过程回归优于其他方法。高斯过程回归的特点与其他方法不同。这可能是因为我们选择了合适的特征进行高斯过程回归。
一个样本图像的高斯过程回归预测。
7 讨论
我们花了很多时间清理原始数据。因此,我们只能管理一个建筑物的预测。
如果我们有更多的时间,我们想要优化应该包含在预测中的特性集。例如,我们可以包含更多的特性,比如前一小时甚至前两小时的天气数据。这是因为冷却和加热过程是动态的,系统对天气的反应可能会有些延迟。我们可能也可以排除一些无关的特性来减少训练模型的时间成本。
我们应该使用同样的训练和测试时间尺度。请注意,在日常预测中,对于随机森林和k近邻方法,与其他方法相比,训练集更大,测试集更小。在逐时预测中,线性回归的训练测试比(训练点数除以测试点数)远低于高斯过程回归。这是不公平的比较。
我们尽力在笔记本上解释一切。然而,这个项目的时间非常有限,有些工作是琐碎和难以解释的。