zoukankan html css js c++ java

开源中文词法文本分析程序整理

开源产品	发布单位	主要功能
fudannlp	复旦自然语言处理	1.信息检索：文本分类新闻聚类 2.中文处理：中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别 3.结构化学习：在线学习层次分类聚类精确推理
ik-analyzer	http://code.google.com/p/ik-analyzer/	1.采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式； 2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位，Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。 3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。 4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符 5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。
jieba	fxsjy	1. 分词 2. 关键词提取
paoding	http://code.google.com/p/paoding/	1. 支持Lucene 3.0 2.高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。 3.采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。 4.能够对未知的词汇进行合理解析
ansj中文分词 (ictclas的java实现.)	ansjsun	1.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 2.内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 3.准确率能达到96%以上 4.目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.
ictclas	北京中科天玑科技有限公司	1、内存消耗不到知识库大小的1.5倍。基于该技术，分词速度单机500KB/s，分词精度98.45%，API不超过100KB，种词典数据压缩后不到3M，稳定性更高。 2、支持多线程 3、支持UTF-8 也可让系统自动识别编码。 4、支持简体繁体中文 5、支持Windows7 6、支持大用户词典
scws	hightman.cn	1.采用的是自行采集的词频词典，并辅以一定程度上的专有名称、人名、地名、数字年代等规则集，经小范围测试大概准确率在 90% ~ 95% 之间. 2. SCWS 采用纯 C 代码开发，以Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。 3.此外它支持 GBK，UTF-8，BIG5 等汉字编码，切词效率高。
ctbparser	http://code.google.com/p/ctbparser/	1.用户可以自行编辑词条以改善分词，词性标注效果。 2.可以处理繁体中文。 3.用于分词、词性标注、依存句法分析
jcseg	http://code.google.com/p/jcseg/	1。mmseg四种过滤算法，分词准确率达到了97%以上。 2。支持自定义词库。 3。中文数字识别，例如：”四五十个人都来了，管他叁柒贰拾壹。”中的”四五十”和”叁柒贰拾壹”。(1.6.7版开始支持) 4。支持中英混合词的识别。例如：B超。 5。支持基本单字单位的识别，例如2012年。 6。智能圆角半角处理。 7。特殊字母识别：例如：Ⅰ，Ⅱ 8。特殊数字识别：例如：①，⑩ 9。配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。(1.6.8版开始支持) 10。智能中文人名识别。中文人名识别正确率达90%以上。（可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来去除歧义，提高准确率）。
imdict-chinese-analyzer （ictclas中文分词程序的重新实现（基于Java））	高小平	功能：中文分词、停止词过滤优点：开源，分词速度快，效率高缺点：不支持自己添加词库，不支持词性标注（开发人员自己说是为了提高速度），data文件夹仅自带了两个字典coredict核心字典、bigramdict词关系字典，这是两个最重要的词典，没有地名和人名的词典，所以要识别人名地名比较麻烦，据说要用层次hmm，先粗分在细分。
mmseg4j	http://code.google.com/p/mmseg4j/	1.实现 mmseg 算法分词 2.有两种 Simple 和 Complex 分词 3.扩展 Lucene 的 Analyzer, 以便结合 Lucene 使用 4.扩展 Solr 的 TokenizerFactory,以便结合 Solr 使用 5使用sogou核心词库(15W) 6.实现多分词 7.允许多个词库文件

查看全文

相关阅读:
angularJS之基础知识(一)
angularJS之$http：与服务器交互
 angualrJS之表单验证
 python实现命令行中的进度条原理
 通过Arcpy在ArcMap工具箱中添加脚本计算面图层的起终点坐标
 关于ArcGIS API for JavaScript中basemap的总结介绍（一）
初学JAVA--分支语句
 移动端开发通用适配
 js中Number.toFixed()方法的理解
 <div>标签仿<textarea>。contentEditable=‘true’，赋予非表单标签内容可以编辑

原文地址：https://www.cnblogs.com/sovf/p/3277424.html

Copyright © 2011-2022 走看看