THULAC：一个高效的中文词法分析工具包（z'z） - 走看看

zoukankan html css js c++ java

THULAC：一个高效的中文词法分析工具包（z'z）
网址：http://thulac.thunlp.org/

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：
1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
2. 准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
3. 速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
python版（兼容python2.x和python3.x）
1. 源代码下载
  
  将thulac文件放到目录下，通过 import thulac 来引用 thulac需要模型的支持，需要将下载的模型放到thulac目录下。
2. pip下载
  
  sudo pip install thulac 通过 import thulac 来引用
  
  import thulac thu1=thulac.thulac() text1=thu1.cut("通过python程序import thulac，新建thulac.thulac(args)类，其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词",text=True) print(text1)
查看全文

相关阅读:
Android 自定义View修炼-Android 实现自定义的卫星式菜单（弧形菜单）View
Android中SurfaceView的使用详解
 Android 自定义View修炼-【2014年最后的分享啦】Android实现自定义刮刮卡效果View
Android 自定义View修炼-实现自定义圆形、圆角和椭圆ImageView（使用Xfermode图形渲染方法）
Android 自定义View修炼-Android实现圆形、圆角和椭圆自定义图片View（使用BitmapShader图形渲染方法）
框架 Spring Boot 技术入门到整合 8-1 Springboot整合Mybatis-使用generatorConfig生成mapper以及pojo
框架 Spring Boot 技术入门到整合 7-3 Springboot配置全局的异常捕获 -同时兼容web和ajax
框架 Spring Boot 技术入门到整合 7-2 Springboot配置全局的异常捕获 -ajax形式
 框架 Spring Boot 技术入门到整合 7-1 Springboot配置全局的异常捕获 -web页面跳转
 框架 Spring Boot 技术入门到整合 6-3 thymeleaf 常用标签的使用方法

原文地址：https://www.cnblogs.com/aomi/p/7145211.html

Copyright © 2011-2022 走看看