zoukankan      html  css  js  c++  java
  • 航空公司案列分析

    """
    了解航空现状
    了解 40个特征--每个特征的含义
    观察窗口---2012-04-01 ----2014-03-31,我们给定的数据 就是观察窗口内的数据
    #  丢弃票价为空的记录-----保留票价不为空的记录
    # 丢弃票价为0 ,折扣不为0,飞行里程大于0 的数据 -----没花钱,而且还乘坐飞机了
    # ===》保留票价>0 ,折扣不为0 ,飞行里程大于0 的数据 ---真真正正花钱坐飞机
    
    # 筛选特征的时候---去 筛选出能够与LRFMC 相关的特征出来
    # 构建特征的时候 需要构建 ---LRFMC五个特征
    
    # 进行异常值处理 ---箱线图分析/3sigma
    
    #标准化数据 --->自定义的 也可以用sklearn 的
    
    # 数据已经就位
    
    # km聚类---聚为5类,聚类中心可以拿到了
    
    # 常规的 散点图不适合这类结果
    
    # 结果展示---雷达图
    
    # 分析--给出建议
    """
    import pandas as pd
    from sklearn.preprocessing import StandardScaler
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    import numpy as np
    
    
    def box_analysis(data):
        """
        进行箱线图分析,剔除异常值
        :param data: series
        :return: bool数组
        """
        qu = data.quantile(0.75)
        # print(qu)
        ql = data.quantile(0.25)
        # print(ql)
    
        iqr = qu - ql
    
        # 上限
        up = qu + 1.5 * iqr
        #  下限
        low = ql - 1.5 * iqr
    
        # 进行比较运算
        bool_id_1 = data <= up
        bool_id_2 = data >= low
    
        bool_num = bool_id_1 & bool_id_2
    
        return bool_num
    
    
    # 1、加载数据
    air_data = pd.read_csv("./air_data.csv", encoding='ansi')
    print("air_data:
    ", air_data)
    print("air_data 的形状:
    ", air_data.shape)
    print("air_data 列索引:
    ", air_data.columns)
    
    # 2、缺失值处理
    # 丢弃票价为空的记录-----保留票价不为空的记录
    bool_id_1 = air_data.loc[:, 'SUM_YR_1'].notnull()  # 不为空的 为T,空的为F
    bool_id_2 = air_data.loc[:, 'SUM_YR_2'].notnull()
    
    bool_id = bool_id_1 & bool_id_2
    
    air_data = air_data.loc[bool_id, :]
    print("*" * 80)
    print("丢弃票价为空的记录之后的结果:
    ", air_data.shape)
    
    # 丢弃票价为0 ,折扣不为0,飞行里程大于0 的数据 -----没花钱,而且还乘坐飞机了
    # ===》保留票价>0 ,折扣不为0 ,飞行里程大于0 的数据 ---真真正正花钱坐飞机
    bool_num_1 = air_data.loc[:, 'SUM_YR_1'] > 0
    bool_num_2 = air_data.loc[:, 'SUM_YR_2'] > 0
    
    bool_num_3 = air_data.loc[:, 'avg_discount'] > 0
    bool_num_4 = air_data.loc[:, 'SEG_KM_SUM'] > 0
    
    bool_num = (bool_num_1 | bool_num_2) & bool_num_3 & bool_num_4
    
    air_data = air_data.loc[bool_num, :]
    print("*" * 80)
    print("丢弃票价为0 ,折扣不为0,飞行里程大于0 的数据之后的结果:
    ", air_data.shape)
    
    # 3、筛选特征
    air_data = air_data.loc[:, ['FFP_DATE', 'LOAD_TIME', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']]
    print("*" * 80)
    print("筛选出有效特征之后的结果:
    ", air_data)
    
    # 4、构建LRFMC五个特征
    # 先将数据转化为pandas默认支持的时间序列数据
    
    # 构建L
    air_data.loc[:, 'LOAD_TIME'] = pd.to_datetime(air_data.loc[:, 'LOAD_TIME'])
    air_data.loc[:, 'FFP_DATE'] = pd.to_datetime(air_data.loc[:, 'FFP_DATE'])
    
    air_data.loc[:, 'L_days'] = air_data.loc[:, 'LOAD_TIME'] - air_data.loc[:, 'FFP_DATE']
    print("*" * 80)
    air_data.loc[:, 'L_days'] = [i.days for i in air_data.loc[:, 'L_days']]
    
    air_data.loc[:, 'L'] = air_data.loc[:, 'L_days'] / 30
    
    # print("计算出的L_days结果:
    ", air_data.loc[:, 'L_days'])
    # print("*" * 80)
    # print("计算出的L结果:
    ", air_data.loc[:, 'L'])
    
    # 构建R
    print("*" * 80)
    # 先将数据转化为pandas默认支持的时间序列数据
    air_data.loc[:, 'R'] = air_data.loc[:, 'LAST_TO_END'] / 30
    
    # 构建F
    air_data.loc[:, 'F'] = air_data.loc[:, 'FLIGHT_COUNT']
    
    # 构建 M
    air_data.loc[:, 'M'] = air_data.loc[:, 'SEG_KM_SUM']
    
    # 构建C
    air_data.loc[:, 'C'] = air_data.loc[:, 'avg_discount']
    
    # 取出LRFMC
    data = air_data.iloc[:, -5:]
    print("构建好特征之后的data:
    ", data.shape)
    print("*" * 80)
    # 5进行异常值处理
    for i in range(len(data.columns)):
        bool_index = box_analysis(data.iloc[:, i])
        data = data.loc[bool_index, :]
    print("处理完异常值之后的结果:
    ", data.shape)
    
    # 6、标准化处理
    stand = StandardScaler()
    x = stand.fit_transform(data)
    print("*" * 80)
    print("标准化之后的结果:
    ", x)
    
    # 7、进行聚类
    k = 5
    # 创建实例
    km = KMeans(n_clusters=k)
    # 训练数据
    km.fit(x)
    # 预测类别
    y_predict = km.predict(x)
    
    # 获取聚类中心
    center = km.cluster_centers_
    print("*" * 80)
    print("聚类中心:
    ", center)
    print("预测标签值:
    ", y_predict)
    
    # 1、创建画布
    plt.figure()
    # 默认不支持中文,需要配置RC 参数
    plt.rcParams['font.sans-serif']='SimHei'
    # 设置字体之后不支持负号,需要去设置RC参数更改编码
    plt.rcParams['axes.unicode_minus']=False
    # 创建子图 polar=开启极坐标
    plt.subplot(111, polar=True)
    
    # 2、绘图
    
    # 设计角度
    datalength = 5
    angle = np.linspace(0, 2 * np.pi, num=datalength,endpoint=False)
    
    # 闭合角度
    angle = np.concatenate((angle,[angle[0]]),axis=0)
    
    
    # 循环闭合数据 并进行绘图
    for i in range(k):
        # 循环进行闭合数据
        data = np.concatenate((center[i,:],[center[i,0]]))
    
        # 每闭合一次数据,就进行绘制一次图形
        plt.polar(angle,data)
    
    
    print(angle)
    
    # 设置刻度
    labels = ["L","R","F","M","C"]
    plt.xticks(angle,labels)
    
    # 增加标题
    plt.title("航空用户聚类分析")
    
    #设置图例
    plt.legend(["用户群体一","用户群体二","用户群体三","用户群体四","用户群体五"])
    
    # 保存图片
    plt.savefig("./航空用户聚类分析.png")
    
    # 3、展示
    plt.show()

  • 相关阅读:
    Python os 模块
    Python sys 模块
    [SAP BASIS]How to kill process in SAP ?
    linux lsof 详解
    [ORACLE] Oracle 索引失效总结
    [SAP BASIS] [TMS] 更改 Backup-Domain-Controler as Domain Controller|将TMS备用域控制器改为主域控制器
    python 生产者消费者模型
    Python 多线程
    python queue 模块
    [Linux]ipcs,ipcm 命令详解
  • 原文地址:https://www.cnblogs.com/wutanghua/p/11542507.html
Copyright © 2011-2022 走看看