中文分词工具之基于字标注法的分词

中文分词工具之基于字标注法的分词

基于字标注法的分词

中文分词字标注通常有2-tag,4-tag和6-tag这几种方法，其中4-tag方法最为常用。标注集是依据汉字（其中也有少量的非汉字字符）在汉语词中的位置设计的。

1. 2-tag法

2-tag是一种最简单的标注方法,标注集合为{B,I}，其将词首标记设计为B，而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”，而“大学生”的标注结果为“大/B 学/I 生/I”

对于以下句子

迈向充满希望的新世纪 —— 一九九八年新年讲话

使用2-tag（B，I）的标注结果为

迈/B向/I 充/B满/I 希/B望/I 的/B 新/B 世/B纪/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 讲/B话/I

2.4-tag法

4-tag标注集合为{S,B,M,E}，S表示单字为词，B表示词的首字，M表示词的中间字，E表示词的结尾字。对于以下句子

迈向充满希望的新世纪 —— 一九九八年新年讲话

使用4-tag（S,B,M,E）的标注结果为

迈/B向/E 充/B满/E 希/B望/E 的/S 新/S 世/B纪/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 讲/B话/E

参考我爱自然语言处理博客， python实现方法为

本文使用 pku语料库，其原始格式为

标注后的结果为

3.6-tag法

6-tag标注集合为{S,B,M1,M2,M,E}，S表示单字为词，B表示词的首字，M1/M2/M表示词的中间字，E表示词的结尾字。例如“大学生”可以标注为“大/B 学/M 生/E” 。

查看全文

相关阅读:
not(expr|ele|fn)从匹配元素的集合中删除与指定表达式匹配的元素
 has(expr|ele)保留包含特定后代的元素，去掉那些不含有指定后代的元素。
map(callback)将一组元素转换成其他数组（不论是否是元素数组）
is(expr|obj|ele|fn)
filter(expr|obj|ele|fn)筛选出与指定表达式匹配的元素集合。
eq(index|-index)
clone([Even[,deepEven]])克隆匹配的DOM元素并且选中这些克隆的副本。
detach([expr]) 从DOM中删除所有匹配的元素。
scrollTop([val])
offset([coordinates])

原文地址：https://www.cnblogs.com/adnb34g/p/11088128.html