1. 监督学习,非监督学习,半监督学习和增强学习
机器学习方法分类标准一:
监督学习:分类、回归
给机器的训练数据拥有“标记”或“答案”
有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有LDA主题模型、朴素贝叶斯算法和隐式马尔科夫模型等,常见的判别方法有SVM、LR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。
非监督学习:
给机器的训练数据没有“标记”或“答案”
对没有“标记”的数据进行分类 - 聚类分析
非监督学习的意义:
1.对数据进行降维处理
- 特征提取:信用卡的信用评级和人的胖瘦无关
- 特征压缩:PCA(尽量少损失数据的情况下,将高维的特征压缩到低维)
2.异常检测
半监督学习:
一部分数据有“标记”,另一部分没有
更常见:各种原因产生的标记缺失
通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测
增强学习:(AlphaGo、无人驾驶、机器人)
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。
2. 批量学习,在线学习,参数学习和非参数学习
1.在线学习和批量学习(离线学习):
1.1 批量学习
优点:简单,只需要学习算法的本身,新数据来了,不需要重新学习
问题:如何适应环境的变化?
解决方案:定时重新批量学习
缺点:每次重新批量学习,运算量巨大;在环境变化非常快的话,基本是不可能
1.2在线学习
每次输入样例,马上就会拿到正确的结果(股市),然后马上将数据迭代到机器学习算法中
优点:及时反映新的环境变化
问题:新的数据带来不好的变化?
解决:需要加强对数据的监控,非监督学习(可以检测异常数据)
其他:使用于数据量巨大,完全无法批量学习的环境
2.参数学习和非参数学习:
2.1参数学习(线性回归)简单线性回归、多项式线性回归、逻辑回归
参数学习的特点:
一旦学习到可参数,就不需要原有的数据集,比如说线性回归
2.2非参数学习KNN、决策树、随机森林
不对模型进行过多假设
非参数不等于没参数