工作记录保留
由于本周期中考试,所以试验暂停。为了下周能完美对接上本周的工作,在此做一个完整细致的工作记录。
Hiero
代码
eval-06中文件含义
源端到目标端翻译,对目标端(target)各项打分,各项所占的比重称为权重。然后算总分。参考理论部分。
刚开始各项权值均为1.0,各项权值的列表在一个文件里,py文件里面有路径(/home/rfzhang.../好像是第一个路径)。不断迭代,迭代到最大次数,就像LDA里面迭代后验分布一样得到最优解。但是最优best100不用最后一次迭代的结果,而是选取其中最优解。
run_mert.py文件
mert函数的作用:使迭代得出的权值能得出bleo值高的结果,两种评判统一。
理论
1.权值
2.word-prase-systax based translation
1.2.部分见手写笔记。
参考文件
0.先把论文从新读一遍!!!
补充:论文的大概意思是把一个思想加入到翻译系统中去。
1.学长的两篇博客:关于bleo值得。在Ubuntu /Documents文件夹里面。
2.熊老师pdf,在桌面Hiero文件夹里。
3.机器翻译ppt(周三找王星学长要)
4.nlp网络课程 micheal cillins Ubuntu Firefox收藏夹里有。
LDA
代码
run_em
1.核心run_em部分,参考中文的代码解释,慢慢理解细节。
2.如何记住代码(理解 or 强记 )
3.如何重新编写代码(顺序 and 编译器 g++):
-- 先跑一遍,得出大概结果
-- 方案1:按顺序编,编完一个文件放替换原来的文件跑一下,跑成功在编另一个。
-- 方案2:按顺序编,编完一个函数调试一个函数。
理论
概率公式
run_em中的每一个迭代都代表一个概率公式,把那些概率公式搞明白,并且做笔记。
1.MLE
2.参数估计
3.Gibbs Sampling
学完这些赶紧用博客总结。按知识点总结,不要到最后一起总结。这次要细看,选重点看,不要在按照顺序看。