第一章
通信的原理和信息传播的模型
模型:信源-信道-接收者
原理:编码和解码
聚类:概念的归类。
第二章
没啥可说的,跳过
第三章
马尔科夫假设:每当一种情况发生的时候,就假设任意一个词出现的概率之和它前面的词有关。
高阶语言模型
马尔科夫模型之中,假设任意一个词出现的概率之和它前面的N-1个词有关。实际应用之中至多是N=3。
对数据量较小的数据的处理:
假设在语料库之中出现r次的词有个,当r(单词在网页之中出现的频度)较小的时候,统计不可靠。因此出现r次的那些词在计算它们的概率的时候要使用一个更小一点的次数,
语料的选取
训练语料和模型应用的领域应该有较高的相似度。数据量尽可能的大。尤其是高阶模型,更需要更多的数据。有时,需要对噪声进行处理,在成本不高的情况下,需要过滤训练数据。