zoukankan      html  css  js  c++  java
  • 机器学习ML策略

    1、为什么是ML策略

    例如:识别cat分类器的识别率是90%,怎么进一步提高识别率呢?

    想法:

    (1)收集更多数据

    (2)收集更多的多样性训练样本

    (3)使用梯度下降训练更长时间

    (4)尝试Adam代替梯度下降

    (5)尝试更大的网络

    (6)尝试更小的网络

    (7)尝试dropout

    (8)尝试L2正则化

    (9)修改网络架构(激励函数,隐含层单元数目)

    2、正交化

    正交化(正交性)是一种系统设计属性,它可以确保修改算法的一个指令或者组成部分将不会对系统的其他组成部分产生或者传播副作用。使得核查算法变得容易,减少测试和开发算法的时间。

    一个好的机器学习算法按算法流程需要满足(正交化):

    (1)在训练集中表现好(接近人类)。如果不好,可换大型网络或者更换优化算法

    (2)在验证集中表现好。如果不好,可尝试正则化或者使用大一点规模的训练集

    (3)在测试集中表现好。如果不好,可尝试大一点的验证集

    (4)在真实世界中表现好。如果不好,测试集不正确或者代价函数有问题

    3、单一数字评估指标

    混淆矩阵:

    True Positive(TP):正类预测为正类

    True Negtive(TN):负类预测为负类

    False Positive(FP):负类预测为正类(误报)

    False Negative(FN):正类预测为负类(漏报)

      Positive Negative
    True TP TN
    False FP FN

    精确率(precision):针对预测结果而言的,它表示的是预测为正的样本中有多少是对的

                                                                   P = TP/(TP+FP)

    准确率(accuracy):ACC = (TP+TN)/(TP+TN+FP+FN)

    召回率(recall):针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确的

                                                                  R = TP/(TP+FN)

    F1值:2/F1 = 1/P +1/R      --->       F1 = 2TP/(2TP+FP+FN)

    在信息检索领域,精确率和召回率又被称为查准率查全率

    查准率检索出的相关信息量 / 检索出的信息总量
    查全率检索出的相关信息量 / 系统中的相关信息总量
     
  • 相关阅读:
    [Windows Server 2012] 安装PHP+MySQL方法
    [Windows Server 2012] 安装IIS8.5及FTP
    [Windows Server 2012] IIS自带FTP配置方法
    护卫神,服务器安全专家!
    ie9 UpdateModel失败
    打包自己的nuget时,设置安装此nuget改写web.config
    Roslyn 1.2.0.0 的改变
    用自定义routes把不同的querystring名对应到action同一个参数上
    JetBrains dotCover 2.0 破解研究(注册机)
    mvc4 中的 AuthorizeAttribute
  • 原文地址:https://www.cnblogs.com/crazybird123/p/7496966.html
Copyright © 2011-2022 走看看