zoukankan      html  css  js  c++  java
  • 词性标注

    4.10  词性标注

    词性用来描写叙述一个词在上下文中的作用。比如描写叙述一个概念的词叫做名词,在下文引用这个名词的词叫做代词。有的词性常常会出现一些新的词,比如名词,这种词性叫做开放式词性。另外一些词性中的词比較固定,比如代词,这种词性叫做封闭式词性。由于存在一个词相应多个词性的现象,所以给词准确地标注词性并非非常easy。比方:"改革"在"中国開始对计划经济体制进行改革"这句话中是一个动词,在"医药卫生改革中的经济问题"中是一个名词。把这个问题抽象出来就是已知单词序列  ,给每一个单词标注上词性 。

    不同的语言有不同的词性标注集。比方英文有反身代词,比如myself,而中文则没有反身代词。为了方便指明词的词性,能够给每一个词性编码。比如《PFR人民日报标注语料库》中把"形容词"编码成a;名词编码成n;动词编码成v等。

    词性标注有小标注集和大标注集。比如小标注集把代词都归为一类,大标注集能够把代词进一步分成三类。

    人称代词:你 我 他 它 你们 我们 他们

    疑问代词:哪里  什么  怎么

    指示代词:这里 那里  这些  那些

    採用小标注集比較easy实现,可是太小的标注集可能会导致类型区分度不够。比如在黑白两色世界中,能够通过颜色的深浅来分辨出物体,可是通过七彩颜色能够分辨出很多其它的物体。

    參考《PFR人民日报标注语料库》的词性编码表,如表4-4所看到的:

    表4-4  词性编码表

    代码

    名称

    举例

    a

    形容词

    最/d  大/a  的/u 

    ad

    副形词

    一定/d  可以/v  顺利/ad  实现/v  。/w 

    ag

    形语素

    喜/v  煞/ag  人/n 

    an

    名形词

    人民/n  的/u  根本/a  利益/n  和/c 

    国家/n  的/u  安稳/an  。/w 

    B

    差别词

    副/b  书记/n  王/nr  思齐/nr 

    c

    连词

    全军/n  和/c  武警/n  先进/a  典型/n  代表/n 

    d

    副词

    两側/f  台柱/n  上/f  分别/d  雄踞/v  着/u 

    dg

    副语素

    用/v  不/d  甚/dg  流利/a  的/u  中文/nz  主持/v  节目/n  。/w 

    e

    叹词

    嗬/e  !/w 

    f

    方位词

    从/p  一/m  大/a  堆/q  档案/n  中/f  发现/v  了/u 

    g

    语素 

    比如dg或ag

    h

    前接成分 

    眼下/t  各种/r  非/h  合作制/n  的/u  农产品/n

    i

    成语

    提高/v  农民/n  讨价还价/i  的/u  能力/n  。/w

    j

    简称略语 

    民主/ad  选举/v  村委会/j  的/u  工作/vn 

    k

    后接成分

    权责/n  明白/a  的/u  逐级/d  授权/v  制/k

    l

    习用语 

    是/v  建立/v  社会主义/n  市场经济/n 

    体制/n  的/u  重要/a  组成部分/l  。/w

    m

    数词 

    科学技术/n  是/v  第一/m  生产力/n 

    n

    名词

    希望/v  两方/n  在/p  市政/n  规划/vn 

    ng

    名语素 

    就此/d  分析/v  时/Ng  觉得/v 

    nr

    人名

    建设部/nt  部长/n  侯/nr  捷/nr 

    续表

    代码

    名称

    举例

    ns

    地名

    北京/ns  经济/n  执行/vn  态势/n  喜人/a 

    nt

    机构团体

    [冶金/n  工业部/n  洛阳/ns  耐火材料/l  研究院/n]nt

    nx

    字母专名

    ATM/nx  交换机/n

    nz

    其它专名 

    德士古/nz  公司/n

    o

    拟声词 

    汩汩/o  地/u  流/v  出来/v

    p

    介词

    往/p  基层/n  跑/v  。/w

    q

    量词

    不止/v  一/m  次/q  地/u  听到/v  ,/w

    r  

    代词 

    有些/r  部门/n 

    s  

    处所词 

    移居/v  海外/s  。/w

    t

    时间词 

    当前/t  经济/n  社会/n  情况/n

    tg

    时语素 

    秋/Tg  冬/tg  连/d  旱/a 

    u

    助词 

    工作/vn  的/u  政策/n 

    ud

    结构助词

    有/v  心/n  栽/v  得/ud  梧桐树/n

    ug

    时态助词

    你/r  想/v  过/ug  没有/v 

    uj

    结构助词的

    迈向/v  充满/v  希望/n  的/uj  新/a  世纪/n

    ul

    时态助词了

    完毕/v  了/ ul 

    uv

    结构助词地

    满怀信心/l  地/uv  开创/v  新/a  的/u  业绩/n

    uz

    时态助词着

    眼看/v  着/uz 

    v

    动词

    举行/v  老/a  干部/n  迎春/vn  团拜会/n

    vd

    副动词

    强调/vd  指出/v 

    vg

    动语素 

    做好/v  尊/vg  干/j  爱/v  兵/n  工作/vn

    vn  

    名动词 

    股份制/n  这样的/r  企业/n  组织/vn  形式/n  ,/w

    w

    标点符号

    生产/v  的/u  5G/nx  、/w  8G/nx 

    型/k  燃气/n  热水器/n

    x  

    非语素字 

    生产/v  的/u  5G/nx  、/w  8G/nx 

     型/k  燃气/n  热水器/n

    y

    语气词 

    已经/d  30/m  多/m  年/q  了/y  。/w

    z  

    状态词 

    势头/n  依旧/z  强劲/a  ;/w

  • 相关阅读:
    在MaxCompute中配置Policy策略遇到结果不一致的问题
    通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
    阿里小二的日常工作要被TA们“接管”了!
    2018年DDoS攻击全态势:战胜第一波攻击成“抗D” 关键
    基于OSS+DataLakeAnalytics+QuickBI的Serverless的查询分析和可视化BI
    威胁快报|首爆,新披露Jenkins RCE漏洞成ImposterMiner挖矿木马新“跳板”
    Lesson 7 Nehe
    Lesson 7 Nehe
    Lesson 7 Nehe
    Lesson 6 Nehe
  • 原文地址:https://www.cnblogs.com/zfyouxi/p/4511595.html
Copyright © 2011-2022 走看看