一:学习了LSTM和CNN
LSTM 选择性地记忆之前地信息,利用了各种门控
CNN : 卷积核 进行卷积 得到 n-f+1)*(n-f+1)
会导致图像缩小边缘信息消失 所以进行padding ,padding完后,然后卷积可以的得到和原来一样地维度图像n+2p-f+1)*(n+2p-f+1)
卷积stride :
公式: w * a+b然后 relu一下 非线性化
ll 为一个卷积层:
f[l]f[l]:第ll层过滤器的大小
p[l]p[l]:第ll层padding的数量
s[l]s[l]:第ll层步长大小
nlCnCl:过滤器的个数
Input:
nl−1H×nl−1W×nl−1CnHl−1×nWl−1×nCl−1:l−1l−1层输入图像的高、宽以及通道数。
Output:
nlH×nlW×nlCnHl×nWl×nCl:输出图像的高、宽以及通道数
输出图像的大小:
nlH=⌊nl−1H+2∗pl−f[l]sl+1⌋nHl=⌊nHl−1+2∗pl−f[l]sl+1⌋
nlW=⌊nl−1W+2∗pl−f[l]sl+1⌋nWl=⌊nWl−1+2∗pl−f[l]sl+1⌋
输出图像的通道数就是过滤器的个数
池化:最大池化就是把图像分成几份,每一份中地最大值
平均池化:每一份中地平均值
超参数: 步长、过滤器大小、池化类型
https://blog.csdn.net/ice_actor/article/details/78648780
二:余弦相似度
余弦相似度计算:根据con 两个向量的夹角越小表示两个向量越相似,根据余弦公式可以计算文本相似度或句子相似度 越接近1越相似https://blog.csdn.net/u012160689/article/details/15341303
三:线性回归
线性回归:https://zhuanlan.zhihu.com/p/25434586
解析解法:
中用到了最小二乘法 https://blog.csdn.net/u012315428/article/details/53465678,求线性方程斜率,利用线性代数的方法,矩阵的变换,利用均方差,求取斜率和bias的导数为0时,得到最优解,而这个最优解和用矩阵求出的一样 故可以用 w^=(XTX)−1XTy
梯度下降法:进行拟合
凸函数:https://blog.csdn.net/u010182633/article/details/75267242
四:并把双向RNN的那篇论文重新看了一下,有了新的理解
双向RNN,一个正向输入 一个反向输入 然后生成annotations ,-->h ,在encoder中为每一个word生成context ci ci具有上下文的含义
decoder 根据 ci 以及权重 来生成yi
https://blog.csdn.net/xiewenbo/article/details/79382785
前馈网络:每一层中的神经元接受前一层的输出,并输出下一层神经元,整个网络中的信息是朝一个方向进行的
反馈网络:不但可以接收其它神经元的信号,也可以接收自己的反馈信号
五:正在看谷歌的bert模型,预训练