zoukankan      html  css  js  c++  java
  • 动手学pytorch-softmax

    1.softmax

    [ softmax(x_i) = frac{ exp(x_i)}{sum_{j} exp(x_j)} ]

    2.cross entropy

    [Hleft(oldsymbol y^{(i)}, oldsymbol {hat y}^{(i)} ight ) = -sum_{j=1}^q y_j^{(i)} log hat y_j^{(i)}, ]

    其中带下标的(y_j^{(i)})是向量(oldsymbol y^{(i)})中非0即1的元素,需要注意将它与样本(i)类别的离散数值,即不带下标的(y^{(i)})区分。在上式中,我们知道向量(oldsymbol y^{(i)})中只有第(y^{(i)})个元素(y^{(i)}{y^{(i)}})为1,其余全为0,于是(H(oldsymbol y^{(i)}, oldsymbol {hat y}^{(i)}) = -log hat y{y^{(i)}}^{(i)})。也就是说,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。当然,遇到一个样本有多个标签时,例如图像里含有不止一个物体时,我们并不能做这一步简化。但即便对于这种情况,交叉熵同样只关心对图像中出现的物体类别的预测概率。

    假设训练数据集的样本数为(n),交叉熵损失函数定义为

    [ell(oldsymbol{Theta}) = frac{1}{n} sum_{i=1}^n Hleft(oldsymbol y^{(i)}, oldsymbol {hat y}^{(i)} ight ), ]

    其中(oldsymbol{Theta})代表模型参数。同样地,如果每个样本只有一个标签,那么交叉熵损失可以简写成(ell(oldsymbol{Theta}) = -(1/n) sum_{i=1}^n log hat y_{y^{(i)}}^{(i)})。从另一个角度来看,我们知道最小化(ell(oldsymbol{Theta}))等价于最大化(exp(-nell(oldsymbol{Theta}))=prod_{i=1}^n hat y_{y^{(i)}}^{(i)}),即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

    3.手写

    4.使用pytorch简易实现

    5.预测结果展示


  • 相关阅读:
    python2.7_1.4_将IPV4地址转换成不同的格式
    大型网站问题的解决方案
    大型网站的标准
    SCP服务实现Linux交互
    SCP服务实现Linux交互
    使用Linux系统中的SSH服务
    向php文件中添加php.ini文件
    让apache与mysql随着系统自动启动
    为apache与mysql创建快捷方式
    安装PHP软件
  • 原文地址:https://www.cnblogs.com/54hys/p/12299108.html
Copyright © 2011-2022 走看看