机器学习（4）- 机器学习系统的设计

zoukankan html css js c++ java

机器学习（4）- 机器学习系统的设计
根据Andrew Ng在斯坦福的《机器学习》视频做笔记，已经通过李航《统计学习方法》获得的知识不赘述，仅列出提纲。

1 机器学习系统的设计

构建一个学习算法的推荐方法为：
1. 从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法
2. 绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择
3. 进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的样本，看看这些样本是否有某种系统化的趋势。（设定误差度量值）
偏斜类的误差度量

用分类精确度并不能准确衡量算法优劣

精确率（Precision）：预测为真，但是实际为真的占比

召回率（Recall）：实际为真，但是预测为真的占比

将算法预测的结果分成四种情况：

真阳性（True Positive，TP）：预测为真，实际为真

真阴性（True Negative，TN）：预测为假，实际为假

假阳性（False Positive，FP）：预测为真，实际为假

假阴性（False Negative，FN）：预测为假，实际为真

[precision=frac{TP}{TP+FP} ]
[recall=frac{TP}{TP+FN} ]
高精确率和高召回率的模型是一个好的分类模型。

将出现较少的类设定为(y=1)，即真

精确率和召回率的权衡

高精确率，低召回率；低精确率，高召回率

自动选择：尝试不同的临界值，并根据评估度量值选择最优的

评估度量值

[F_1 scroe=2frac{PR}{P+R} ]
机器学习数据

通过一个具有很多参数的学习算法来解决偏差问题；

通过用非常大的训练集来解决方差问题。
查看全文

相关阅读:
第七章查询数据（待续）
第六章 MySQL函数（待续）
第五章数据类型和运算符（待续）
Centos 用户登录失败N次后锁定用户禁止登陆
 关于CentOS普通用户无法登录SSH问题
 允许FTP用户登录并禁止Shell登录的方法
 禁止Linux用户登录方法
 syslog-ng 学习心得与配置说明
 记录linux系统用户shell终端操作记录
 通过syslog接收远程日志

原文地址：https://www.cnblogs.com/angelica-duhurica/p/10952409.html

机器学习（4）- 机器学习系统的设计

1 机器学习系统的设计

偏斜类的误差度量

精确率和召回率的权衡

机器学习数据