zoukankan      html  css  js  c++  java
  • softmax为什么使用指数函数?(最大熵模型的理解)

    解释1:

    他的假设服从指数分布族

    解释2:

    最大熵模型,即softmax分类是最大熵模型的结果。

    关于最大熵模型,网上很多介绍:

    在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。

    所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

    参考网址:

    https://blog.csdn.net/xg123321123/article/details/54286514

    对于输入x,判断类别y

    如果使他满足最大熵模型,则条件概率满足公式:

    其中wi(i=1,2,...m)wi(i=1,2,...m)为拉格朗日乘子。如果大家也学习过支持向量机,就会发现这里用到的凸优化理论是一样的,接着用到了拉格朗日对偶也一样。

    最大熵模型这里引入了一个特征函数的概念:

    可以定义为:

    为什么需要特征函数?比较容易理解的是,特征函数其实是一个用户接口,我们可以通过定制特征函数来控制模型的训练。

    注意,f(x,y)必须是实数函数,而最大熵模型一般要求这个函数是一个二值函数。也就是说通过这个特征函数把x和y之间千丝万缕的关系转化成了一个实数值。

    至此,我们可以看到softmax的表达式和最大熵模型的最优求解的表达式形式上是相似的,如果我们用θx表达最大熵中Wf(x,y)就得到了softmax的表达式。

  • 相关阅读:
    Datediff的使用(统计本日,昨日,本周,本月)
    数据库之查询语句
    数据库之表关系
    数据库中的数据类型
    数据库概念和基本操作
    IO模型
    并发编程之协程
    GIL与多线程(线程池与进程池,同步异步阻塞非阻塞)
    并发编程之多线程
    并发编程之多进程
  • 原文地址:https://www.cnblogs.com/pinking/p/8723477.html
Copyright © 2011-2022 走看看