zoukankan      html  css  js  c++  java
  • 中文分词工具之基于字标注法的分词

     

    基于字标注法的分词

    中文分词字标注通常有2-tag,4-tag6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。

    1. 2-tag

    2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B /I”,而“大学生”的标注结果为“大/B /I /I

    对于以下句子

    迈向 充满 希望 世纪 —— 一九九八年 新年 讲话

    使用2-tagBI)的标注结果为

    /B/I /B/I /B/I /B /B /B/I /B/I /B/I/I/I/I /B/I /B/I

    2.4-tag

     

    4-tag标注集合为{S,B,M,E}S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。对于以下句子

    迈向 充满 希望 世纪 —— 一九九八年 新年 讲话

    使用4-tagS,B,M,E)的标注结果为

    /B/E /B/E /B/E /S /S /B/E /B/E /B/M/M/M/E /B/E /B/E

    参考我爱自然语言处理博客, python实现方法为

     

     

    本文使用 pku语料库,其原始格式为

     

     

    标注后的结果为

     

    3.6-tag

    6-tag标注集合为{S,B,M1,M2,M,E}S表示单字为词,B表示词的首字,M1/M2/M表示词的中间字,E表示词的结尾字。例如“大学生”可以标注为“大/B /M /E” 。

  • 相关阅读:
    真正的e时代
    在线手册
    UVA 10616 Divisible Group Sums
    UVA 10721 Bar Codes
    UVA 10205 Stack 'em Up
    UVA 10247 Complete Tree Labeling
    UVA 10081 Tight Words
    UVA 11125 Arrange Some Marbles
    UVA 10128 Queue
    UVA 10912 Simple Minded Hashing
  • 原文地址:https://www.cnblogs.com/adnb34g/p/11088128.html
Copyright © 2011-2022 走看看