zoukankan      html  css  js  c++  java
  • php 分词扩展 scws

    官方:http://www.xunsearch.com/scws/index.php
     
    以 Linux(FreeBSD) 操作系统为例
    1. 取得 scws-1.2.2 的代码
    wget http://www.xunsearch.com/scws/down/scws-1.2.2.tar.bz2
     
    2. 解开压缩包
    [hightman@d1 ~]$ tar xvjf scws-1.2.2.tar.bz2
     
    3. 进入目录执行配置脚本和编译
    [hightman@d1 ~]$ cd scws-1.2.2[hightman@d1 ~/scws-1.2.2]$ ./configure --prefix=/usr/local/scws ; make ; make install
     
    注:这里和通用的 GNU 软件安装方式一样,具体选项参数执行 ./configure --help 查看。
    常用选项为:--prefix=<scws的安装目录>
     
    4. 顺利的话已经编译并安装成功到 /usr/local/scws 中了,执行下面命令看看文件是否存在
    [hightman@d1 ~/scws-1.2.2]$ ls -al /usr/local/scws/lib/libscws.la
     
    5. 试试执行 scws-cli 文件
    [hightman@d1 ~/scws-1.2.2]$ /usr/local/scws/bin/scws -h
    scws (scws-cli/1.2.2)
    Simple Chinese Word Segmentation - Command line usage.
    Copyright (C)2007 by hightman.
    ...
     
    6 用 wget 下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中
    [hightman@d1 ~/scws-1.2.2]$ cd /usr/local/scws/etc
    [hightman@d1 /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
    [hightman@d1 /usr/local/scws/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
    [hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
    [hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2
     
    7. 写个小程序测试一下
    [hightman@d1 ~]$ cat > test.c
    #include <scws.h>
    #include <stdio.h>
    main()
    {
      scws_t s;
      s = scws_new();
      scws_free(s);
      printf("test ok! ");
    }
     
    8. 编译测试程序
    gcc -o test -I/usr/local/scws/include -L/usr/local/scws/lib test.c -lscws -Wl,--rpath -Wl,/usr/local/scws/lib
    ./test
     
    9. 这样就好顺利安装完毕可以使用 libscws 这套 C-API 了
     
    10. 如果您需要在 php 中调用分词,建议继续阅读本文安装 php 扩展,否则可跳过不看。
     
        假设您已经将 scws 按上述步骤安装到 /usr/local/scws 中。
        安装此扩展要求您的 php 和系统环境安装了相应的 autoconf automake 工具及 phpize 。
     
        1) 进入源码目录的 phpext/ 目录 ( cd ~/scws-1.2.2 )
        2) 执行 phpize (在PHP安装目录的bin/目录下)
        3) 执行 ./configure --with-scws=/usr/local/scws
          若 php 安装在特殊目录 $php_prefix, 则请在 configure 后加上 --with-php-config=$php_prefix/bin/php-config
        4) 执行 make 然后用 root 身份执行 make install
        5) 在 php.ini 中加入以下几行
     
    [scws]
    ;
    ; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
    ; 再把 extension = scws.so 指定绝对路径。
    ;
    extension = scws.so
    scws.default.charset = gbk
    scws.default.fpath = /usr/local/scws/etc
     
        6) 命令行下执行 php -m 就能看到 scws 了或者在 phpinfo() 中看看关于 scws 的部分,记得要重启 web 服务器
          才能使新的 php.ini 生效。
        7) 这样就算安装完成了,余下的工作只是PHP代码编写问题了。
          关于 PHP 扩展的使用说明请参看代码中 phpext/README.md 文件或其它文档章节。
    11.swcs 在php 中使用
    例子1 使用类方法分词
    <?php
         $so = scws_new();
         $so->set_charset('gbk');
         // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
         $so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");
         while ($tmp = $so->get_result()){
              print_r($tmp);
         }
         $so->close();
    ?>
    例子2 使用函数提取高频词
    <?php
         $sh = scws_open();
         scws_set_charset($sh, 'gbk');
         scws_set_dict($sh, '/path/to/dict.xdb');
         scws_set_rule($sh, '/path/to/rules.ini');
         $text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";
         scws_send_text($sh, $text);
         $top = scws_get_tops($sh, 5);
         print_r($top);
    ?>
    修改导入导出工具 
     
  • 相关阅读:
    LeetCode 338. 比特位计数
    LeetCode 208. 实现 Trie (前缀树)
    初识restful api接口
    破解 Navicat Premium 12
    ES6 Reflect的认识
    ES6 WeakMap和WeakSet的使用场景
    sublime 注释模版插件DocBlockr的使用
    js call方法的使用
    ES6 Generator的应用场景
    ES6 Symbol的应用场景
  • 原文地址:https://www.cnblogs.com/biggerCoder/p/5038140.html
Copyright © 2011-2022 走看看