zoukankan      html  css  js  c++  java
  • NLP-06 语言技术 词性 / POS Tagging 概率图模型

    https://www.bilibili.com/video/BV1kE411G7qo?p=6

    1. 词性标签

      Wind  v/n     protest  v/n

      1)人为将词性(及物动词,不及物动词,名词复数,连词,标点)标注好后,进行语料库训练   

         

      同词有不同的词性,意义

      例如 file : 文件夹;搓子

       2)构词方式

      Rule-Based 指的是使用规则或语法: 名字后面接 形容词动词 等等; 但是不准确,被放弃了

       

       

      

     

     

     

       3)通过统计 'still'前面那个词的词性频率,来判断still词性

       观察词性对,条件概率

    2. 隐马尔科夫模型

      1)简介

      

       2)From mixture Model to HMM

      伯努利分布:二项分布

         

      3) 有几种硬币,现已知这些硬币的前一系列取值,预测下一次是正面的概率

      如果只有一种硬币: P = c(正) / c(正) + c(反)

      但有多种硬币: Expectation Maximum

      4)Expectation Maximization

        Π: 红色硬币占比

        P:红色硬币朝上概率

        Q:绿色硬币朝上概率

        问: 下一次硬币朝上概率是多少? 且不知道下一次硬币的颜色

        由于我们不知道硬币的状态,引入隐藏状态 Z 

     

       这里的P(x)为伯努利混合模型的核心公式

       不知道这个H T 是红色硬币还是绿色掷出来的后 可以用 u(x)来估计

      问: 如果已知所有样本的u(样本为红色的比率/概率) 求 Π(红色硬币占总硬币比例) p(红色H比例) q(绿色H比例)

      

      给定u(t+1)时刻,求 Π p q ;再递归通过 Π p q求u(t+2)

      4) 高斯混合模型

      

      5) HMM 

      右下图是第一天晴天雨天下,第二天晴天雨天的概率

      由上图是晴天雨天下,观察到的人的活动,Walk或者Clean

      由于影响行动的天气状态不可观测(Hidden),所以叫隐马尔科夫链

      能观察到的只有Action

      能学习的有 transitional probability (右下图) 

      6)假设有三个正态分布,

      7) Pos Tagging 

      基于EM算法

      8)词性转移矩阵,词性释放矩阵

      

         

       

  • 相关阅读:
    [日常摸鱼]UVA393 The Doors 简单计算几何+最短路
    [日常摸鱼]bzoj3122 [Sdoi]2013 随机数生成器
    [日常摸鱼]积性函数求和——杜教筛
    [OI笔记]NOIP2017前(退役前)模拟赛的总结
    [日常摸鱼]poj2417 DiscreteLoggingBSGS算法
    [日常摸鱼]UVA11424&11426 GCD Extreme
    [日常摸鱼]JSOI2008最大数
    [日常摸鱼]HDU1724 Ellipse自适应Simpson法
    原码、补码、反码的作用和区别
    Fibonacci序列or兔子序列
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13579079.html
Copyright © 2011-2022 走看看