zoukankan      html  css  js  c++  java
  • 2.2机器学习三要素模型,学习准则,优化算法

    自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取:

    https://www.cnblogs.com/bclshuai/p/11380657.html

    1.1  基本概念

    以识别芒果的好坏的案例来说明概念。

    特征:描述物体的属性值,例如芒果的颜色、大小、形状、产地、品牌等;

    特征向量:由物体的特征值构成的向量。

    标签:标识物体的准确属性,识别的目标值。例如芒果的甜度、水分、成熟度的综合评分。

    样本:独立的一份特征数据和标记,例如一个标记好特征和标签的芒果。

    训练集:用于训练算法的样本集。

    测试样本:用于测试算法有效性准确性的样本集。

    1.2  机器学习三要素

    模型,学习准则,优化算法

    1.2.1         模型

    机器学习的目标是找到一个模型近似真实的映射函数,将输入转化为输出,输出和目标结果近似。

    (1)线性模型,wT是权重向量,b为偏置。

     

    (2)非线性模型,ϕ(x)是K个非线性基函数组成的向量,ϕk(x)是一个非线性函数。f(x,θ)是非线性函数的线性组合。

     

    如果"ϕ(x)"为可学习的非线性基函数,"f(x,θ)"就等价于神经网络。

    1.2.2         学习准则

    好的模型应该在输入输出取值覆盖真实的情况,模型函数与真实的映射函数之间一致,计算出的误差在很小的范围内。可以通过期望风险这个参数来判断模型的好坏。p(x,y)表示真实的数据分布,£(f(x),y)为损失函数。

     

    损失函数

    用来量化模型预测和真实标签之间的差异。

    (1)01损失函数,将预测值和实际值比较,正确为1,不正确为0直观,但是不连续。

     

    (2)平方损失函数,求出预测值和实际值差的平方和取均值。

    (3)经验风险最小化,找到一组参数是的模型在训练集上的平均损失(经验风险)最小。经验风险最小化准则容易导致模型在训练集上过拟合。所以需要参数加入一个正则化项来限制模型能力,使模型不要过度的最小化经验风险,这个叫做结构风险最小化。正则化项是参数的范德蒙范数乘以系数λ。

     

    1.2.3         过拟合和欠拟合

    过拟合:算法对训练集学习很好,但是由于训练集是真实数据的一个子集,存在噪声等原因,在训练集上面错误率低,但是在未知数据上错误率很高。

    欠拟合:模型不能很好的拟合训练数据,在训练集上错误率比较高。

    1.2.4         优化算法

    确定了训练集,假设空间,和学习准则。找到一个最优的模型就是最优化求解过程。

    (1)   参数模型f(x,θ)的参数θ可以通过算法优化进行学习。

    (2)   超参数,用来定义模型结构或者优化策略的参数,例如梯度下降法中的步长,神经网络的层数,正则化项系数λ等。超参数一般根据经验来设定,或者搜索的方法对一组超参数进行试错调整。

  • 相关阅读:
    Git fetch和git pull的区别
    git add 命令详解
    第1章——算法在计算机中的作用
    Mysql数据库中的计数器表实时更新
    Windows 7 搭建 nodejs、npm、express 环境
    设计模式之工厂模式
    设计模式之单例模式(Singleton Pattern)
    java实现合并两个已经排序的列表
    Spring+SpringMVC+Mybatis+Maven+CXF+WebService整合之服务端
    sqlserver乱码问题解决
  • 原文地址:https://www.cnblogs.com/bclshuai/p/13996897.html
Copyright © 2011-2022 走看看