zoukankan      html  css  js  c++  java
  • 中文分词工具之基于字标注法的分词

     

    基于字标注法的分词

    中文分词字标注通常有2-tag,4-tag6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。

    1. 2-tag

    2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B /I”,而“大学生”的标注结果为“大/B /I /I

    对于以下句子

    迈向 充满 希望 世纪 —— 一九九八年 新年 讲话

    使用2-tagBI)的标注结果为

    /B/I /B/I /B/I /B /B /B/I /B/I /B/I/I/I/I /B/I /B/I

    2.4-tag

     

    4-tag标注集合为{S,B,M,E}S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。对于以下句子

    迈向 充满 希望 世纪 —— 一九九八年 新年 讲话

    使用4-tagS,B,M,E)的标注结果为

    /B/E /B/E /B/E /S /S /B/E /B/E /B/M/M/M/E /B/E /B/E

    参考我爱自然语言处理博客, python实现方法为

     

     

    本文使用 pku语料库,其原始格式为

     

     

    标注后的结果为

     

    3.6-tag

    6-tag标注集合为{S,B,M1,M2,M,E}S表示单字为词,B表示词的首字,M1/M2/M表示词的中间字,E表示词的结尾字。例如“大学生”可以标注为“大/B /M /E” 。

  • 相关阅读:
    POJ3928 Pingpong(统计比 K 小的个数 + 树状数组)
    C++ Primer Plus读书笔记
    HDU1698Just a Hook(线段树 + 区间修改 + 求和)
    POJ3468A Simple Problem with Integers(区间加数求和 + 线段树)
    POJ2528Mayor's posters(离散化 + 线段树)
    约瑟夫环
    编写一个JavaWeb项目
    四则运算在线答题系统
    JAVA项目中的常用的异常处理情况
    第八周动手动脑
  • 原文地址:https://www.cnblogs.com/adnb34g/p/11088128.html
Copyright © 2011-2022 走看看