基本问题
什么是机器学习?
机器学习要解决哪些问题?
从复杂和海量的数据中获得洞见
机器学习的步骤有哪些?
基础
机器学习的基本概念,原理以及基本方法以及基础能力
基本概念
属性 值 特征
训练集和测试集 验证集
特征提取 特征变换
模型-- 模型是观察的简化
监督和非监督学习:监督学习 半监督学习 无监督学习 强化学习
在线学习和离线学习--是否可以增量学习
是否监督
监督学习
线性回归 逻辑回归
K近邻 支持向量机 决策树 随机森林 神经网络
半监督学习
深度信念网络 DBN --受限玻尔兹曼机RBN
无监督学习
聚类算法 K-Means EM 分层聚类算法
降维算法 PCA kernel_PCA
可视化 t-SNE
关联规则 Apriori Eclat
异常检测
强化学习
策略 执行 获得奖励或惩罚 升级策略
数据
离线学习:学习过程在批量数据时,应用时,学习停止-- 需要不断训练新版本
在线学习:--
全量学习和增量学习
泛化方式
基于实例: 基于学习示例,通过相似度等泛化到新的示例
基于模型: 构建模型,利用模型进行预测
模型
模型参数和学习算法的超参数
步骤
学习数据-选择模型-训练模型-应用模型-评估模型
评估模型- 测试与验证 训练误差和泛化误差 以及验证假设
主要的问题
数据: 训练样本不足 训练样本不具有代表性 无关特征 质量差的数据
模型: 过拟合 欠拟合
过拟合: 模型在训练数据上表现良好,泛化效果比较不是很好
评判: 性能指标: 均方根误差 平均绝对误差
参考方法“
提供更好的特征,
选择更多参数/更强大的模型
减少模型中的约束
实际操作
Pipeline 数据流水线
参考文献
机器学习实战 Hands-on mechine Learning with