zoukankan      html  css  js  c++  java
  • 机器学习(4)- 机器学习系统的设计

    根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。

    1 机器学习系统的设计

    构建一个学习算法的推荐方法为:

    1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
    2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
    3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的样本,看看这些样本是否有某种系统化的趋势。(设定误差度量值)

    偏斜类的误差度量

    用分类精确度并不能准确衡量算法优劣

    精确率Precision):预测为真,但是实际为真的占比

    召回率Recall) :实际为真,但是预测为真的占比

    将算法预测的结果分成四种情况:

    真阳性True Positive,TP):预测为真,实际为真

    真阴性True Negative,TN):预测为假,实际为假

    假阳性False Positive,FP):预测为真,实际为假

    假阴性False Negative,FN):预测为假,实际为真

    [precision=frac{TP}{TP+FP} ]

    [recall=frac{TP}{TP+FN} ]

    高精确率和高召回率的模型是一个好的分类模型。

    将出现较少的类设定为(y=1),即真

    精确率和召回率的权衡

    高精确率,低召回率;低精确率,高召回率

    自动选择:尝试不同的临界值,并根据评估度量值选择最优的

    评估度量值

    [F_1 scroe=2frac{PR}{P+R} ]

    机器学习数据

    通过一个具有很多参数的学习算法来解决偏差问题;

    通过用非常大的训练集来解决方差问题。

  • 相关阅读:
    第七章 查询数据(待续)
    第六章 MySQL函数(待续)
    第五章 数据类型和运算符(待续)
    Centos 用户登录失败N次后锁定用户禁止登陆
    关于CentOS普通用户无法登录SSH问题
    允许FTP用户登录并禁止Shell登录的方法
    禁止Linux用户登录方法
    syslog-ng 学习心得与配置说明
    记录linux系统用户shell终端操作记录
    通过syslog接收远程日志
  • 原文地址:https://www.cnblogs.com/angelica-duhurica/p/10952409.html
Copyright © 2011-2022 走看看