https://www.bilibili.com/video/BV1kE411G7qo?p=6
1. 词性标签
Wind v/n protest v/n
1)人为将词性(及物动词,不及物动词,名词复数,连词,标点)标注好后,进行语料库训练
同词有不同的词性,意义
例如 file : 文件夹;搓子
2)构词方式
Rule-Based 指的是使用规则或语法: 名字后面接 形容词动词 等等; 但是不准确,被放弃了
3)通过统计 'still'前面那个词的词性频率,来判断still词性
观察词性对,条件概率
2. 隐马尔科夫模型
1)简介
2)From mixture Model to HMM
伯努利分布:二项分布
3) 有几种硬币,现已知这些硬币的前一系列取值,预测下一次是正面的概率
如果只有一种硬币: P = c(正) / c(正) + c(反)
但有多种硬币: Expectation Maximum
4)Expectation Maximization
Π: 红色硬币占比
P:红色硬币朝上概率
Q:绿色硬币朝上概率
问: 下一次硬币朝上概率是多少? 且不知道下一次硬币的颜色
由于我们不知道硬币的状态,引入隐藏状态 Z
这里的P(x)为伯努利混合模型的核心公式
不知道这个H T 是红色硬币还是绿色掷出来的后 可以用 u(x)来估计
问: 如果已知所有样本的u(样本为红色的比率/概率) 求 Π(红色硬币占总硬币比例) p(红色H比例) q(绿色H比例)
给定u(t+1)时刻,求 Π p q ;再递归通过 Π p q求u(t+2)
4) 高斯混合模型
5) HMM
右下图是第一天晴天雨天下,第二天晴天雨天的概率
由上图是晴天雨天下,观察到的人的活动,Walk或者Clean
由于影响行动的天气状态不可观测(Hidden),所以叫隐马尔科夫链
能观察到的只有Action
能学习的有 transitional probability (右下图)
6)假设有三个正态分布,
7) Pos Tagging
基于EM算法
8)词性转移矩阵,词性释放矩阵