什么是机器学习?
机器学习是通过数据或者经验,优化计算机程序等性能标准,自动改进计算机的算法,以达到解决未知问题的目标
监督学习
计算机通过学习一组有标签的信息来对从未见过对数据做出有用对预测
监督学习的代表算法:回归和分类
- 回归处理连续值问题:房价预测等
- 分类处理离散值问题邮件分类(垃圾和非垃圾)等
非监督学习
计算机通过学习一组没有标签等信息,找到其隐藏等结构来对从未见过对数据做出有用的预测
非监督学习的代表算法:聚类
以分析信息的隐藏结构来对信息做出类别区分,如:市场用户分类等
分类和聚类的区别
- 分类属于监督学习,聚类属于非监督学习
- 分类是按照标准给对象贴标签,根据标签来区分类别(先定义类别,类别数确定)
- 聚类预先没有标签,通过分析找出事物之间存在等聚集性,根据聚集性分类(没有预定类别,类别数不确定)