zoukankan      html  css  js  c++  java
  • 判别分析-GDA、QDA、KNN

    线性判别分析

    对Smarket数据做线性判别分析(LDA)

    library(MASS)
    lda.fit <- lda(Direction~Lag1+Lag2,data=Smarket,subset=(Year<2005))
    lda.fit
    Call:
      lda(Direction ~ Lag1 + Lag2, data = Smarket, subset = (Year <  2005))
    
    Prior probabilities of groups:
      Down       Up 
    0.491984 0.508016 
    
    Group means:
      Lag1        Lag2
    Down  0.04279022  0.03389409
    Up   -0.03954635 -0.03132544
    
    Coefficients of linear discriminants:
      LD1
    Lag1 -0.6420190
    Lag2 -0.5135293
    
    

    LDA输出两个类别的前向概率,表明49.2%的训练观测对应着市场下降的时期;同时也输出类平均值,即每个类中每个预测变量的平均,
    可以用来估计每个类高斯分布的均值。这表明当市场上涨时,前两天的投资回报率会趋向负值;当市场下跌时,前两天的投资回报率会趋向正值。
    线性判别系数输出给出了线性判别函数中Lag1和Lag2的组合系数,用来形成LDA的决策准则,该决策函数是由式(4.19)X=x各变量相乘表示的,
    如果-0.642Lag1-0.514Lag2很大,则LDA线性分类器将预测市场上涨;如果很小LDA分类器预测市场下跌。

    plot(lda.fit) #生成线性判别图像

    lda.pred <- predict(lda.fit,test)#返回三元列表
    names(lda.pred)
    [1] "class"     "posterior" "x"
    
    predict()函数返回结果说明:
    class因子型变量,存储了LDA关于市场动向的预测;
    posterior是一个矩阵,其中第k列是观测属于第k类的后验概率,依据后验概率大的类,结果包含在class之中;
    x包含线性决策函数-0.642*Lag1-0.514*Lag2的结果。
    
    lda.class  <- lda.pred$class
    table(lda.class,Direction.test)
           Direction.test
    lda.class Down  Up
        Down   35  35
        Up     76 106
    

    LDA与逻辑斯蒂回归预测结果几乎一样

    #预测正确率
    mean(lda.class==Direction.test)
    [1] 0.5595238
    

    使用后验概率50%的阙值,重新预测

    sum(lda.pred$posterior[,1]>=0.5)
    [1] 70  #70代表上涨的数目
    sum(lda.pred$posterior[,1]<0.5)
    [2] 182 #代表下跌的数目
    
    如果阙值用一个非50%的后验概率阙值做预测:
    sum(lda.pred$posterior[,1]>0.9)
    [1] 0  结果为0,说明在测试数据集中,下跌后验概率没有一天达到90%
    
    

    二次判别分析(QDA)

    对Smarket数据拟合QDA模型,在R中调用MASS库中的qda()函数来实现

    qda.fit <- qda(Direction~Lag1+Lag2,data=Smarket,subset=(Year<2005))
    qda.fit
    Call:
      qda(Direction ~ Lag1 + Lag2, data = Smarket, subset = (Year <  2005))
    
    Prior probabilities of groups:
      Down       Up 
    0.491984 0.508016 
    
    Group means:
      Lag1        Lag2
    Down  0.04279022  0.03389409
    Up   -0.03954635 -0.03132544
    
    

    输出结果包含类平均值,但是不包含线性判别系数,因为QDA分类器是一个二次函数,不是预测变量的线性函数。

    predict()函数与LDA执行方式相同
    qda.class <- predict(qda.fit,test)$class
    table(qda.class,Direction.test)
           Direction.test
    qda.class Down  Up
        Down   30  20
        Up     81 121
    
    #正确的预测率
    mean(qda.class==Direction.test)
    [1] 0.5992063
    
    

    对股票市场数据,QDA所假设的二次型比LDA和逻辑斯蒂回归的线性假设更近于真实的关系


    KNN法

    library(class)
    
    #knn()函数用法有所不同
    #前两种都是先拟合模型,再根据模型做预测
    #knn函数中有四个必须的参数,就可以做预测
    
    library(ISLR)
    attach(Smarket)
    
    #分成训练数据集和测试数据集
    train.X <- cbind(Lag1,Lag2)[Year<2005,]
    test.X <-cbind(Lag1,Lag2)[Year>=2005,]
    
    #训练数据观测类标签的向量
    train.Direction <- Direction[Year<2005]
    test.Direction <- Direction[Year>=2005]
    
    set.seed(123)#结果可重复
    #knn返回测试数据的分类标签
    knn.pred <- knn(train.X,test.X,train.Direction,k=1)
    table(knn.pred,test.Direction)
          test.Direction
    knn.pred Down Up
      Down   43 58
      Up     68 83
      
    #测试正确率
      mean(knn.pred==test.Direction)
      [1] 0.5
    正确率只有50%,改变k值,重新预测
    knn.pred <- knn(train.X,test.X,train.Direction,k=3)
    table(knn.pred,test.Direction)
      
        test.Direction
    knn.pred Down Up
      Down   48 55
      Up     63 86
    
       #测试正确率
      mean(knn.pred==test.Direction) 
      [1] 0.531746
      结果略有改观,随着k的增加,结果不会有更进一步的改进。
      
    detach(Smarket)
     
    
  • 相关阅读:
    luogu1117 优秀的拆分 (后缀数组)
    hdu5238 calculator (线段树+crt)
    [模板]中国剩余定理/扩展中国剩余定理
    [模板]欧几里得算法/扩展欧几里得
    cf1088E Ehab and a component choosing problem (树形dp)
    cf1088D Ehab and another another xor problem (构造)
    cf1088C Ehab and a 2-operation task (构造)
    luogu3292 幸运数字 (点分治+线性基)
    2017-03-10<Git版本回退>
    2017-03-09<AS目录结构>
  • 原文地址:https://www.cnblogs.com/hsyjgao/p/5026272.html
Copyright © 2011-2022 走看看