SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页 下载 演示 文档 关于 服务&支持 API/HTTP 论坛 捐赠 源码@github 文档目录 SCWS-1.x.x 安装说明 Libscws C-API 文档 SCWS-1.x.x 命令行说明 SCWS 之 PHP 扩展文档 php_scws.dll/Win32 安装说明 PSCWS23 文档 PSCWS4 文档 词典词性标注详解 SCWS-1.2.3 安装说明 以 Linux(FreeBSD) 操作系统为例 1. 取得 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2. 解开压缩包 [hightman@d1 ~]$ tar xvjf scws-1.2.3.tar.bz2 3. 进入目录执行配置脚本和编译 [hightman@d1 ~]$ cd scws-1.2.3[hightman@d1 ~/scws-1.2.3]$ ./configure --prefix=/usr/local/scws ; make ; make install 注:这里和通用的 GNU 软件安装方式一样,具体选项参数执行 ./configure --help 查看。 常用选项为:--prefix=<scws的安装目录> 4. 顺利的话已经编译并安装成功到 /usr/local/scws 中了,执行下面命令看看文件是否存在 [hightman@d1 ~/scws-1.2.3]$ ls -al /usr/local/scws/lib/libscws.la 5. 试试执行 scws-cli 文件 [hightman@d1 ~/scws-1.2.3]$ /usr/local/scws/bin/scws -h scws (scws-cli/1.2.3) Simple Chinese Word Segmentation - Command line usage. Copyright (C)2007 by hightman. ... 6 用 wget 下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中 [hightman@d1 ~/scws-1.2.3]$ cd /usr/local/scws/etc [hightman@d1 /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2 [hightman@d1 /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2 [hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2 [hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2 7. 写个小程序测试一下 [hightman@d1 ~]$ cat > test.c #include <scws.h> #include <stdio.h> main() { scws_t s; s = scws_new(); scws_free(s); printf("test ok! "); } 8. 编译测试程序 gcc -o test -I/usr/local/scws/include -L/usr/local/scws/lib test.c -lscws -Wl,--rpath -Wl,/usr/local/scws/lib ./test 9. 这样就好顺利安装完毕可以使用 libscws 这套 C-API 了 10. 如果您需要在 php 中调用分词,建议继续阅读本文安装 php 扩展,否则可跳过不看。 假设您已经将 scws 按上述步骤安装到 /usr/local/scws 中。 安装此扩展要求您的 php 和系统环境安装了相应的 autoconf automake 工具及 phpize 。 1) 进入源码目录的 phpext/ 目录 ( cd ~/scws-1.2.3 ) 2) 执行 phpize (在PHP安装目录的bin/目录下) 3) 执行 ./configure --with-scws=/usr/local/scws 若 php 安装在特殊目录 $php_prefix, 则请在 configure 后加上 --with-php-config=$php_prefix/bin/php-config 4) 执行 make 然后用 root 身份执行 make install 5) 在 php.ini 中加入以下几行 [scws] ; ; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空, ; 再把 extension = scws.so 指定绝对路径。 ; extension = scws.so scws.default.charset = gbk scws.default.fpath = /usr/local/scws/etc 6) 命令行下执行 php -m 就能看到 scws 了或者在 phpinfo() 中看看关于 scws 的部分,记得要重启 web 服务器 才能使新的 php.ini 生效。 7) 这样就算安装完成了,余下的工作只是PHP代码编写问题了。 关于 PHP 扩展的使用说明请参看代码中 phpext/README.md 文件或其它文档章节。 [返回目录] Libscws - C API文档 概述 ----- libscws 是 SCWS 中使用 C 语言编写的函数库,没有任何外部库依赖,代码力争简洁高效, 针对分词词典上做了一些优化。除分词外,也可以用于自行设计的 XDB 文件和 XTree 存取。 所有的操作必须先包含以下头文件: ```c #include ``` 数据类型 --------- 1. **scws_t** scws 操作句柄(指针),大多数 API 的第一参数类型,通过 `scws_new()` 返回, 不要尝试拷贝 `struct scws_st` 数据,拷贝结果不保证可以正确工作。 ```c typedef struct scws_st { struct scws_st *p; xdict_t d; // 词典指针,可检测是否为 NULL 来判断是否加载成功 rule_t r; // 规则集指针,可检测是否为 NULL 来判断是否加载成功 unsigned char *mblen; unsigned int mode; unsigned char *txt; int len; int off; int wend; scws_res_t res0; // scws_res_t 解释见后面 scws_res_t res1; word_t **wmap; struct scws_zchar *zmap; } scws_st, *scws_t; ``` 2. **scws_res_t** scws 分词结果集,单链表结构,通过 `scws_get_result()` 返回, 每次分词返回的结果集次数是不定的,须循环调用直到返回 `NULL`。 ```c typedef struct scws_result *scws_res_t; struct scws_result { int off; // 该词在原文本中的偏移 float idf; // 该词的 idf 值 unsigned char len; // 该词的长度 char attr[3]; // 词性 scws_res_t next; // 下一个词 }; ``` 3. **scws_top_t** 高频关键词统计集,简称“词表集”,这是 scws 中统计调用时返回的结构,也是一个单链表结构。 ```c typedef struct scws_topword *scws_top_t; struct scws_topword { char *word; // 词的字符串指针 float weight; // 统计权重 short times; // 出现次数 char attr[2]; // 词性,注意只有2字节,不保证 ’