lesson3-神经序列模型I-小象

zoukankan html css js c++ java

lesson3-神经序列模型I-小象

优化目标函数：
batch gradient descent：必须便利all训练数据 --》随机梯度下降，但不稳定~一个数据点就更新，快但不稳定--》minibatch，取m个随机数据点，求偏导数
why mini就ok：因为大数据是有冗余的，就像看24史-》万历十五年-》三国，稳定更新快，因为很多历史的轮回是相似的

超参数选择：
权重维数、min bantch中batch的大小
方法：grid search~遍历每个点，random search ~better~有些超参数是没有多大影响的
              超参数调参经验~随机实验，资源
判别式模型：只关注映射x-》y，如情感分析
生成式模型：可以生成故事

非线性变化：tath倒数不会接近0，总是为1（x>0),所以不会像sigmoid一样x很大时为0
      softmoid：向量转换为概率，求导时是向量y对向量x求导-》矩阵
      embedding lookup：将int-》embedding，求导为取改行，其他行为0
loss function：交叉熵= -求和真实值ylog预测值y ，求导拉格朗日-》当y真实=y预测时，交叉熵最小
  loss交叉熵对y预测求导在one-hot中 = -1/预测y
         交叉熵loss 与 softmax结合后-》倒数非常简单，y真=1时，倒数=y预测-1
  -》“推所有，拉一个”，梯度下降是都推y预测，但是y真=1的地方再拉回来1

NNLM：n-gram，对词理解有限
     why embedding效果比one-hot好：因为对词的理解更好，相当于词变为了n维的feature~woman和man相似的词在可视化平面中是紧邻的，语法、语义等相似就会靠近--》embedding的每一维相当于机器学出来的特征
word2vec：相当于对NNLM的简化，只有线性模型，所以快+大数据
种类：CBOW，Skip-gram（中间word预测周围的词）

Coordinate Descent：假设两个超参数，固定此调整彼，不断迭代直到xy稳定

代码：

LM/toy.py：可视化反向传播；找出五处错误，正确输出10ite.correct.txt
Word2vec文件夹

查看全文

相关阅读:
使用try-with-resources偷懒关闭资源
 最小公倍数分类： python 小练习 2013-12-02 11:19 263人阅读评论(0) 收藏
 最大公约数分类： python 小练习 2013-12-02 11:00 222人阅读评论(0) 收藏
 Vim的Python编辑器详细配置过程 (Based on Ubuntu 12.04 LTS) 分类： ubuntu software 2013-11-30 00:05 652人阅读评论(1) 收藏
 #小练习合并首字母相同的男孩、女孩姓名（最终版）分类： python 小练习 2013-11-25 16:52 283人阅读评论(0) 收藏
 输出文件中不包含指定的多个排除词的行内容（双重遍历）分类： python 小练习 2013-11-22 15:20 605人阅读评论(0) 收藏
 linux中tomcat内存溢出解决办法分类：测试 2013-11-22 09:46 5053人阅读评论(0) 收藏
 将两个列表元素组成字典分类： python 小练习 2013-11-12 18:17 750人阅读评论(0) 收藏
 python：解析html（HTMLParser、SGMLParser）分类： HTMLParser 2013-11-12 18:11 2302人阅读评论(0) 收藏
 #小练习使用SGMLParser获取url链接分类： HTMLParser 2013-11-12 16:52 471人阅读评论(0) 收藏

原文地址：https://www.cnblogs.com/rosyYY/p/8808801.html