zoukankan      html  css  js  c++  java
  • ansj --词性说明

    背景

      Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。

    词性介绍 

    1. 名词 (1个一类,7个二类,5个三类)

    名词分为以下子类: 
    n 名词 
    nr 人名 
    nr1 汉语姓氏 
    nr2 汉语名字 
    nrj 日语人名 
    nrf 音译人名 
    ns 地名 
    nsf 音译地名 
    nt 机构团体名 
    nz 其它专名 
    nl 名词性惯用语 
    ng 名词性语素 
    nw 新词

    2. 时间词(1个一类,1个二类)

    t 时间词 
    tg 时间词性语素

    3. 处所词(1个一类)

    s 处所词

    4. 方位词(1个一类)

    f 方位词

    5. 动词(1个一类,9个二类)

    v 动词 
    vd 副动词 
    vn 名动词 
    vshi 动词“是” 
    vyou 动词“有” 
    vf 趋向动词 
    vx 形式动词 
    vi 不及物动词(内动词) 
    vl 动词性惯用语 
    vg 动词性语素

    6. 形容词(1个一类,4个二类)

    a 形容词 
    ad 副形词 
    an 名形词 
    ag 形容词性语素 
    al 形容词性惯用语

    7. 区别词(1个一类,2个二类)

    b 区别词 
    bl 区别词性惯用语

    8. 状态词(1个一类)

    z 状态词

    9. 代词(1个一类,4个二类,6个三类)

    r 代词 
    rr 人称代词 
    rz 指示代词 
    rzt 时间指示代词 
    rzs 处所指示代词 
    rzv 谓词性指示代词 
    ry 疑问代词 
    ryt 时间疑问代词 
    rys 处所疑问代词 
    ryv 谓词性疑问代词 
    rg 代词性语素

    10. 数词(1个一类,1个二类)

    m 数词 
    mq 数量词

    11. 量词(1个一类,2个二类)

    q 量词 
    qv 动量词 
    qt 时量词

    12. 副词(1个一类)

    d 副词

    13. 介词(1个一类,2个二类)

    p 介词 
    pba 介词“把” 
    pbei 介词“被”

    14. 连词(1个一类,1个二类)

    c 连词 
    cc 并列连词

    15. 助词(1个一类,15个二类)

    u 助词 
    uzhe 着 
    ule 了 喽 
    uguo 过 
    ude1 的 底 
    ude2 地 
    ude3 得 
    usuo 所 
    udeng 等 等等 云云 
    uyy 一样 一般 似的 般 
    udh 的话 
    uls 来讲 来说 而言 说来 
    uzhi 之 
    ulian 连 (“连小学生都会”)

    16. 叹词(1个一类)

    e 叹词

    17. 语气词(1个一类)

    y 语气词(delete yg)

    18. 拟声词(1个一类)

    o 拟声词

    19. 前缀(1个一类)

    h 前缀

    20. 后缀(1个一类)

    k 后缀

    21. 字符串(1个一类,2个二类)

    x 字符串 
    xx 非语素字 
    xu 网址URL

    22. 标点符号(1个一类,16个二类)

    w 标点符号 
    wkz 左括号,全角:( 〔 [ { 《 【 〖〈 半角:( [ { < 
    wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { > 
    wyz 左引号,全角:“ ‘ 『 
    wyy 右引号,全角:” ’ 』 
    wj 句号,全角:。 
    ww 问号,全角:? 半角:? 
    wt 叹号,全角:! 半角:! 
    wd 逗号,全角:, 半角:, 
    wf 分号,全角:; 半角: ; 
    wn 顿号,全角:、 
    wm 冒号,全角:: 半角: : 
    ws 省略号,全角:…… … 
    wp 破折号,全角:—— -- ——- 半角:— —- 
    wb 百分号千分号,全角:% ‰ 半角:% 
    wh 单位符号,全角:¥ $ £ ° ℃ 半角:$

  • 相关阅读:
    警匪游戏规则
    敏捷开发流程总结
    天际PRO-CR16 改装方案
    世界时间(卡西欧电波表24个城市缩写翻译及简介)
    jmeter 获取总的线程数
    linux 重启jmeter服务
    jmeter 生成不重复的手机号
    Python和Java两门编程语言,学习哪个更好?
    JAVA和前端该选哪个?
    2020年Java程序员的就业前景如何?
  • 原文地址:https://www.cnblogs.com/51zone/p/8012143.html
Copyright © 2011-2022 走看看