一套准确率高且效率高的分词、词性标注工具-thulac - 走看看

zoukankan html css js c++ java

一套准确率高且效率高的分词、词性标注工具-thulac
软件简介

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：
1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
2. 准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
3. 速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
软件地址：

http://thulac.thunlp.org/

python版本使用示例：

通过python程序import thulac，新建thulac.thulac(args)类，其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词。
1 """ 2 测试使用 3 """ 4 import thulac 5 6 7 def thulac_use(): 8 """ 9 用于分词和词性标注 10 :return: 11 """ 12 content = '南京市长江大桥' 13 th = thulac.thulac() 14 res = th.cut(content, text=True) 15 16 print(res) 17 18 19 if __name__ == '__main__': 20 thulac_use()
结果：

南京市_ns 长江_ns 大桥_n
查看全文

相关阅读:
Jupyter notebook中的Cell and Line Magics
numpy中array数组对象的储存方式(n,1)和(n,)的区别
 机器学习中的标准化方法(Normalization Methods)
matplotlib添加子图(拼图功能)
matplotlib.pyplot.plot详解
 一行代码让你的python运行速度提高100倍
 一个简单的Shell脚本(解决windows上文本在macos上乱码问题)
解决Mac上打开txt文件乱码问题
 LaTeX中常用代码段snippets(持续更新)
LaTeX实时预览中文

原文地址：https://www.cnblogs.com/demo-deng/p/9882141.html

热门文章
Week 12
#Week 11
Week 10
Week 9
Week 8
Week 7
Week6
Python中的计时函数
 numpy中数组(矩阵)的乘法
 Python读取mat文件

Copyright © 2011-2022 走看看