zoukankan      html  css  js  c++  java
  • lesson3-神经序列模型I-小象

    优化目标函数:
     batch gradient descent:必须便利all训练数据 --》随机梯度下降,但不稳定~一个数据点就更新,快但不稳定--》minibatch,取m个随机数据点,求偏导数
     why mini就ok:因为大数据是有冗余的,就像看24史-》万历十五年-》三国,稳定更新快,因为很多历史的轮回是相似的

    超参数选择:
     权重维数、min bantch中batch的大小
     方法:grid search~遍历每个点,random search ~better~有些超参数是没有多大影响的
                  超参数调参经验~随机实验,资源
    判别式模型:只关注映射x-》y,如情感分析
    生成式模型:可以生成故事

    非线性变化:tath倒数不会接近0,总是为1(x>0),所以不会像sigmoid一样x很大时为0
          softmoid:向量转换为概率,求导时是向量y对向量x求导-》矩阵
          embedding lookup:将int-》embedding,求导为取改行,其他行为0
    loss function:交叉熵= -求和真实值ylog预测值y ,求导拉格朗日-》当y真实=y预测时,交叉熵最小
      loss交叉熵对y预测求导在one-hot中 = -1/预测y
             交叉熵loss 与 softmax结合后-》倒数非常简单,y真=1时,倒数=y预测-1
      -》“推所有,拉一个”,梯度下降是都推y预测,但是y真=1的地方再拉回来1

    NNLM:n-gram,对词理解有限
         why embedding效果比one-hot好:因为对词的理解更好,相当于词变为了n维的feature~woman和man相似的词在可视化平面中是紧邻的,语法、语义等相似就会靠近--》embedding的每一维相当于机器学出来的特征
    word2vec:相当于对NNLM的简化,只有线性模型 ,所以快+大数据
     种类:CBOW,Skip-gram(中间word预测周围的词)
     

    Coordinate Descent:假设两个超参数,固定此调整彼,不断迭代直到xy稳定

    代码:

    LM/toy.py:可视化反向传播;找出五处错误,正确输出10ite.correct.txt
     Word2vec文件夹

  • 相关阅读:
    阿里PAI深度学习组件:Tensorflow实现图片智能分类实验
    IDEA with MaxCompute Stadio
    阿里云大数据产品解决方案ODPSADSSTERAMCOMPUTEPAI介绍
    Hive DDL ROW FORMAT
    Spark-Streaming和Kafka集成指南
    网站分析指标
    网站分析概要
    前端规范大总结
    不容错过的20段CSS代码
    利用CSS实现居中对齐
  • 原文地址:https://www.cnblogs.com/rosyYY/p/8808801.html
Copyright © 2011-2022 走看看