机器学习定义:
We define machine learning as a set of methods that can automatically detect patterns in data,and then use the uncovered patterns to predict future data,or to perform other kinds of decision making under uncertainty (such as planning how to collect more data!)
-- 《Machine Learning : A probabilistic perspective》
机器学习方法分类:
- 有监督学习(supervised learning)
- 数据集中的样本 带有标签,有明确目标
- 回归和分类
- 无监督学习(unsupervised learning)
- 数据集中的样本没有标签,没有明确目标
- 聚类、降维、排序、密度估计、关联规则挖掘
- 强化学习(reinforcement learning)
- 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力
- 例如:AlphaGo
有监督学习:
- 数据集中的样本带有标签
- 目标:找到样本到标签的最佳映射
- 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等
- 典型方法
- 回归模型:线性回归、岭回归、LASSO和回归样条等
- 分类模型:逻辑回归、K近邻、决策树、支持向量机等
无监督学习:根据数据本身的分布特点,挖掘反映数据的内在特征
- 聚类:将数据集中相似的样本进行分组,使得:
- 同一组对象之间尽可能相似
- 不同组对象之间尽不可能相似
- 应用场景:
- 基因表达水平聚类:根据不同基因表达的时序特征进行聚类,得到基因表达处于信号通路上游还是下游的信息
- 篮球运动员划分:根据球员相关数据,将其划分到不同类型(或者不同等级)的运动员阵营中
- 客户分析:把客户细分成不同客户群,每个客户群有相似行为,做到精准营销
强化学习
- 基本概念
- agent:智能体
- environment:环境
- state:状态,
- action:行动,
- reward:奖励,
- 策略:π(a|s)
- 目标:
- 求解最大化效用的最优策略