zoukankan      html  css  js  c++  java
  • 《深度学习之TensorFlow》(机械工业出版社)第六、七章(笔记)

    1. P103:激活函数总结(激活函数更像是“斩波器”)

    1)Tanh:特征相差明显时,效果好

    2)Sigmoid:特征的相差不是特别大时,Sigmoid效果好

    3)ReLU:用ReLU处理后的数据有更好的稀疏性,可以用大多数是0的系数矩阵实现

    4)Softmax是Sigmoid激活函数的扩展

    2. P106:Loss函数

    1)Sigmoid激活函数取得的预测值hat{y}范围在0~1之间,那么真实值(Label)也要归一化

    2)交叉熵值越小,代表预测越准确

    3)注意:任意无界值使用均值平方差(MSE),位矢量(分类标准)使用交叉熵

    4)每种激活函数都有与之对应的交叉熵:Sigmoid --> Sigmoid交叉熵,softmax --> softmax交叉熵……

    5)(P109):无需将softmax_cross_entropy_with_logits的logits进行softmax化

    3. P112:梯度向下

    1)批量梯度下降:要把所有样本看一遍,计算速度慢

    2)随机梯度下降:速度快,收敛效果不好,震荡厉害

    3)小批量梯度下降:按批量更新参数

    4. P113:退化学习率

    1)学习率大:速度提升,精度不够

    2)学习率小:精度提升,速度太慢

    3)推荐方法:学习率衰减

    5. P116:maxout

    1)找到隐藏层输出最大的那个,代表特征响应最敏感

    6. P129:非线性问题

    1)非线性问题:无法使用直线将其分开,因此非线性问题需要用多层神经元网络

    2)多层(隐藏层):可以使很多层,也可以一层很多个神经元

    3)理论上:层数或节点增多,效果更好

    4)实际上:并不是这样的

    7. P141:欠拟合与过拟合

    1)欠拟合:结果不理想时,可以增加节点或层

    2)过拟合:避免方法有early stopping,数据集扩增,正则化,dropout

    3)欠拟合时,希望正则化对误差的影响越小越好

    4)过拟合时,希望正则化对误差的影响越大越好

    第七章总结:

    1)隐藏层(1层):神经元个数多,导致泛化能力差

    2)倾向:更深的模型

  • 相关阅读:
    异步非阻塞
    jdbc简单入门
    网络编程
    多线程
    java方法
    java之面向对象
    java-多线程
    Java之反射机制
    使用C#完成冒泡排序
    TextEdit不能空验证设置
  • 原文地址:https://www.cnblogs.com/Yi-920259020/p/12673995.html
Copyright © 2011-2022 走看看