【71】序列模型和注意力机制 - 走看看

zoukankan html css js c++ java

【71】序列模型和注意力机制

in、jane、semptember都有10000个备选词，所以一共有30000个选择，从这30000个里面选择三个概率最大的作为前两个单词。要注意，前两个词出现的概率=第一个词的概率*第二个词的概率

所以实际计算句子的概率时，用的是这个式子，而不是把每个词出现的概率相乘。

y*和y帽概率的计算方法和之前计算某个句子的概率的方法相同。

在实际应用时，可以列出一个表，把翻译错误的句子列出来，然后看看错误原因里束搜索和RNN模型占的比例，判断到底什么是导致错误出现的主要原因，再进行优化。

编码网络的作用是将原法语的每个词都转换为对应的特征向量，然后每个词的特征向量再乘一个对应的权重α，加权和作为解码网络的输入。

需要注意的是，s<t>的输入有两部分，一部分是y<t-1>帽，另一部分是编码网络特征向量的加权和。

（注：带 ' 的是原法语不带 ' 的是译文）

查看全文

相关阅读:
C# 5.0 CallerMemberName CallerFilePath CallerLineNumber 在.NET4中的使用
 Protocol Buffers 语法指南
 ERP、SCM及电子商务关系分析
 ]进程注入是王道之为NhibernateProfiler增加“附加到进程”功能原理(源码)
架构师职位与软件文档的思考
 OSGI：从面向接口编程来理解OSGI
开源的.NET桌面程序自动更新组件 ——Sharp Updater 2.1发布
 C#开源文件实时监控工具Tail&TailUI
SQL 存储过程入门（变量）
Python入门笔记(2)：基础(上)

原文地址：https://www.cnblogs.com/lau1997/p/12417106.html

Copyright © 2011-2022 走看看