zoukankan      html  css  js  c++  java
  • 回归和分类

    在数据分析或者数据挖掘的时候,经常碰到回归和分类的问题,下面详细说下我对我这两概念的理解。

    回归

    一直对为什么叫回归很好奇,百度百科对回归的定义如下:

    回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
    一直想不懂为什么叫回归,查了一下,大概可能是原因。
    左图是一个房间大小和房价的数据图,右图是一个拟合图(图片来自http://blog.csdn.net/ppn029012/article/details/8775597)
    之所以叫回归,是因为对于一个好的拟合曲线(如上图中的蓝线),所有的数据点都在想着拟合曲线靠拢的过程,可以想象成这些数据点向拟合曲线回归的过程。
     
    从回归的定义也可以看出,回归倾向于一个X值对于一个Y值,这是和分类不同的地方。
     

    分类

    如果能找到合适的拟合曲线或者拟合函数的话,分类问题也可以转成回归问题,比如下面的问题:

    这显然 是一个分类问题,但我们找到一个函数可以拟合这个分布,也就是可以用回归的方法的做分类
     
    最后总结一下回归和分类的联系和区别:
    给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y是连续的实数, 这就是一个回归问题。
    也就是说,回归和分类不是绝对的分离,只是他们的目标不一样;在能找到合适的拟合曲线的情况下,分类问题可以转化为回归问题;
    这也是为什么很多回归算法可以应用到分类的原因之一。
     
     
     
     
     
     
     
  • 相关阅读:
    Redis源码分析(二十一)--- anet网络通信的封装
    leetcode 总结part1
    leetcode String to Integer (atoi)
    leetcode 165. Compare Version Numbers
    leetcode 189. Rotate Array
    leetcode 168. Excel Sheet Column Title
    leetcode 155. Min Stack
    leetcode 228. Summary Ranges
    leetcode 204. Count Primes
    leetcode 6. ZigZag Conversion
  • 原文地址:https://www.cnblogs.com/qwj-sysu/p/5431406.html
Copyright © 2011-2022 走看看