zoukankan      html  css  js  c++  java
  • 一套准确率高且效率高的分词、词性标注工具-thulac

    软件简介

    THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

    1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

    2. 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

    3. 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

    软件地址:

    http://thulac.thunlp.org/

    python版本使用示例:

    通过python程序import thulac,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词。

     1 """
     2     测试使用
     3 """
     4 import thulac
     5 
     6 
     7 def thulac_use():
     8     """
     9     用于分词和词性标注
    10     :return:
    11     """
    12     content = '南京市长江大桥'
    13     th = thulac.thulac()
    14     res = th.cut(content, text=True)
    15 
    16     print(res)
    17 
    18 
    19 if __name__ == '__main__':
    20     thulac_use()

    结果:

    南京市_ns 长江_ns 大桥_n

  • 相关阅读:
    zabbix自动发现 url 以及对http返回状态码监控实现 告警
    iOS 开发者账号到期续费流程
    iOS 开发 -----公司测试打包上传流程
    go语言 二叉树
    GO 语言队列实现
    GO 语言常用排序
    go 语言实现栈原理
    循环链表实现原理及运用约瑟夫环实例
    双向链表实现原理
    单向链表实现原理
  • 原文地址:https://www.cnblogs.com/demo-deng/p/9882141.html
Copyright © 2011-2022 走看看