zoukankan      html  css  js  c++  java
  • pkuseg

    git-url: https://github.com/lancopku/PKUSeg-python

    pkuseg:一个多领域中文分词工具包

    pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。

    主要亮点

    pkuseg具有如下几个特点:

    1. 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。各领域分词样例可参考 example.txt
    2. 更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
    3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。
    4. 支持词性标注。

    编译和安装

    • 目前仅支持python3
    • 为了获得好的效果和速度,强烈建议大家通过pip install更新到目前的最新版本
    1. 通过PyPI安装(自带模型文件):

      pip3 install pkuseg
      之后通过import pkuseg来引用
      

      建议更新到最新版本以获得更好的开箱体验:

      pip3 install -U pkuseg
      
    2. 如果PyPI官方源下载速度不理想,建议使用镜像源,比如:
      初次安装:

      pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pkuseg
      

      更新:

      pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pkuseg
      
    3. 如果不使用pip安装方式,选择从GitHub下载,可运行以下命令安装:

      python setup.py build_ext -i
      

      GitHub的代码并不包括预训练模型,因此需要用户自行下载或训练模型,预训练模型可详见release。使用时需设定"model_name"为模型文件。

    注意:安装方式1和2目前仅支持linux(ubuntu)、mac、windows 64 位的python3版本。如果非以上系统,请使用安装方式3进行本地编译安装。

    注意:安装pkuseg-0.0.22.tar.gz 报错 

    ValueError: 'pkuseg/inference.pyx' doesn't match any files

    打开目录下setup.py 发现setup_package()中为 [pkuseg/inference.pyx],而目录下文件却是pkuseg/inference.cpp,可修改setup.py中.pyx为.cpp,

    重新压缩,pip使用自己压缩的包导入即可使用

    各类分词工具包的性能对比

    我们选择jieba、THULAC等国内代表分词工具包与pkuseg做性能比较,详细设置可参考实验环境

    细领域训练及测试结果

    以下是在不同数据集上的对比结果:

    MSRAPrecisionRecallF-score
    jieba 87.01 89.88 88.42
    THULAC 95.60 95.91 95.71
    pkuseg 96.94 96.81 96.88
    WEIBOPrecisionRecallF-score
    jieba 87.79 87.54 87.66
    THULAC 93.40 92.40 92.87
    pkuseg 93.78 94.65 94.21

    默认模型在不同领域的测试效果

    考虑到很多用户在尝试分词工具的时候,大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能,我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意,这样的比较只是为了说明默认情况下的效果,并不一定是公平的。

    DefaultMSRACTB8PKUWEIBOAll Average
    jieba 81.45 79.58 81.83 83.56 81.61
    THULAC 85.55 87.84 92.29 86.65 88.08
    pkuseg 87.29 91.77 92.68 93.43 91.29

    其中,All Average显示的是在所有测试集上F-score的平均。

  • 相关阅读:
    闭包函数与装饰器
    函数的嵌套,名称空间以及作用域
    函数知识点整理
    文件处理,光标
    ☆Django☆---表的设计 生命周期 分组 解析 路由层 视图层
    ☆Django☆---注册功能
    ☆Django☆---初步学习
    ☆Django☆---学习Django前的了解 wsgiref jinja2
    ☆javaSctipt☆---基础学习
    ☆前端☆---博客园作业
  • 原文地址:https://www.cnblogs.com/pythonclass/p/11281607.html
Copyright © 2011-2022 走看看