zoukankan      html  css  js  c++  java
  • jieba初步了解

    http://www.gowhich.com/blog/147

    jieba自带词典:dict.txt

    一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开

    例如:词 频率 词性

    一不注意 3 i
    一不留神 3 i
    一专多能 27 l
    一世 770 t
    一世之雄 2 i
    一世英名 3 m
    一世龙门 3 i

    这篇文档介绍的比较详细:http://www.cnblogs.com/wangtao_20/p/3647240.html

    关于中文分词方法的了解:

    一、基于词典分词

    机械分词:

    按照长度优先级不同,分为最大匹配与最小匹配

    按匹配方向不同,分为正向匹配与逆向匹配

    缺点:缺乏歧义分析处理,切分精度低

    基于规则分词方式:

    基于统计分词方式:

    以上两者可以依赖库也可以不依赖库,与词典分词结合起来用。难以严格区分

    实践中,经常以正向匹配方式为主。

    依赖于词典的方法,缺点是:没有在词典中出现的词语,就没法作为关键词进行切分(识别新词一般使用统计法)。

    二、基于词频统计分词

    将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。

    实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

    三、基于规则分词

    即基于理解分词

    规则法,目前常见的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具体的实现可参考http://nlp.stanford.edu/software/segmenter.shtml
    基于统计和基于规则的分词法是非词典,也就是可以不需要词典的(实际中是多种方式结合,所以会与词典结合)。
    基于词典的和不基于词典的两类分词法,有他们各自的优缺点
    基于词典的,部署比较简单,只需要安装词库即可。实现也简单,对比查找词语库的思路。
    缺点是,分词精度有限,对于词典里没有的词语识别较差。

    非词典分词法,优点是,对于出现过的词语识别效果较好,能够根据使用领域达到较高的分词精度。
    缺点:实现比较复杂。前期需要做大量的工作。

    现实中,没有一种分词方法能够满足所有需求。所以一般都是多种分词方法结合起来使用,相互弥补。

    现实中的使用词典来存储大部分关键词,而识别新词使用统计法。最后就是词典+统计法结合起来使用。

    既能达到分词精准,又能分词速度快,往往是比较理想的状态。但要求精准就会存在性能消耗。搜索引擎需要在分词速度与分词准确度方面求得平衡。

    中文分词一直要解决的两大技术难点为:歧义识别和新词识别(新的人名、地名等)

  • 相关阅读:
    判断DataReader中是否有指定列
    datatable dateset 载体传递数据、存储过程
    抓取网页信息
    捕获异常 winform
    修改myeclipse的jsp模板
    包装设计模式的实现以改进BufferedReader中的readLine方法为例
    查询图书馆借书情况-代码
    查询四六级成绩
    Sqlyog增加试用期
    MVC笔记-模板页布局
  • 原文地址:https://www.cnblogs.com/lwhp/p/6079227.html
Copyright © 2011-2022 走看看