一、数据探索分析
对数据进行缺失值分析与异常值分析,找出数据的规律以及异常值。
打开Jupyter,编写代码,其中data目录和tmp目录是我自己新建的
二、数据预处理
1) 数据清洗
2) 属性规约
去除不相关属性,选择与LRFMC指标相关的六个属性:FFP_DATA、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。删除不相关、弱相关或冗余属性。打印出规约后的数据集。
3)数据变换
a)对LRFMC五个指标进行计算:
(1) L= LOAD_TIME- FFP_DATA
(2) R= LAST_TO_END
(3) F= FLIGHT_COUNT
(4) M= SEG_KM_SUM
(5) C= AVG_DISCOUNT
b) 进行z-score标准化L、R、F、M、C五个指标