zoukankan      html  css  js  c++  java
  • 学习OpenCV——KNN算法

    转自:http://blog.csdn.net/lyflower/article/details/1728642

    文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

       KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

       该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

       该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

    k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。

    重点:

    1:特征降维(一般用CHI方法)

    2:截尾算法(三种截尾算法)

    3:降低计算量

    演示代码:

    [cpp] view plain copy
     
     print?
    1. #include "ml.h"   
    2. #include "highgui.h"     
    3. int main( int argc, char** argv )   
    4. {       
    5.     const int K = 10;       
    6.     int i, j, k, accuracy;       
    7.     float response;       
    8.     int train_sample_count = 100;       
    9.     CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态      
    10.     CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );       
    11.     CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );       
    12.     IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );       
    13.     float _sample[2];       
    14.     CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );       
    15.     cvZero( img );    
    16.   
    17.     CvMat trainData1, trainData2, trainClasses1, trainClasses2;      
    18.   
    19.     // form the training samples       
    20.     cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行      
    21.     cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态       
    22.   
    23.     cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );       
    24.     cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );    
    25.   
    26.     cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );       
    27.     cvSet( &trainClasses1, cvScalar(1) );       
    28.   
    29.     cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );       
    30.     cvSet( &trainClasses2, cvScalar(2) );     
    31.   
    32.     // learn classifier       
    33.     CvKNearest knn( trainData, trainClasses, 0, false, K );      
    34.     CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);    
    35.   
    36.     for( i = 0; i < img->height; i++ )       
    37.     {           
    38.         for( j = 0; j < img->width; j++ )           
    39.         {               
    40.             sample.data.fl[0] = (float)j;               
    41.             sample.data.fl[1] = (float)i;     
    42.   
    43.             // estimates the response and get the neighbors' labels               
    44.             response = knn.find_nearest(&sample,K,0,0,nearests,0);        
    45.   
    46.             // compute the number of neighbors representing the majority               
    47.             for( k = 0, accuracy = 0; k < K; k++ )               
    48.             {                   
    49.                 if( nearests->data.fl[k] == response)                       
    50.                     accuracy++;               
    51.             }     
    52.   
    53.             // highlight the pixel depending on the accuracy (or confidence)               
    54.             cvSet2D( img, i, j, response == 1 ?                   
    55.                 (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :                   
    56.                 (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );           
    57.         }       
    58.     }         
    59.       
    60.     // display the original training samples       
    61.     for( i = 0; i < train_sample_count/2; i++ )       
    62.     {           
    63.         CvPoint pt;           
    64.         pt.x = cvRound(trainData1.data.fl[i*2]);           
    65.         pt.y = cvRound(trainData1.data.fl[i*2+1]);           
    66.         cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );    
    67.   
    68.         pt.x = cvRound(trainData2.data.fl[i*2]);           
    69.         pt.y = cvRound(trainData2.data.fl[i*2+1]);           
    70.         cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );       
    71.     }        
    72.     cvNamedWindow( "classifier result", 1 );       
    73.     cvShowImage( "classifier result", img );       
    74.     cvWaitKey(0);        
    75.     cvReleaseMat( &trainClasses );       
    76.     cvReleaseMat( &trainData );       
    77.     return 0;   
    78. }   

    详细说明:http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
    改进的KNN:http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html

    from: http://blog.csdn.net/yangtrees/article/details/7482890

  • 相关阅读:
    jquery ajax 超时设置
    Django 资源文件配置
    ubuntu 部署Django
    在django项目中自定义manage命令(转)
    WampServer的配置
    Django 向数据表中添加字段方法
    3种归并操作js代码
    CORS Cookie,和nodejs中的具体实现
    CORS(跨来源资源共享协议) 与 http 302状态
    IOException while loading persisted sessions: java.io.EOFException
  • 原文地址:https://www.cnblogs.com/GarfieldEr007/p/5401927.html
Copyright © 2011-2022 走看看