sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4

zoukankan html css js c++ java

sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4
sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4是最官方的新版，免费开源,用官方最新发布原版汉化。未更改任何内核文件。

Sphider 是一个完美的带有蜘蛛的搜索引擎程序。

Sphider是一个轻量级，采用PHP开发的web spider和搜索引擎，使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改，已经有数千网站在使用它。

官方主页 http://www.sphider.eu/

点击下载sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4

今日需要为几个网站做个全文搜索引擎，找了几个PHP开源项目，先试了一下Sphinx ，可惜是基于数据库的，相当于数据库搜索的扩展。Sphider还不错，不过中文的分词不行，基本只能靠空格和符号进行分词。想用luence的话只能用Java和.net了，没有php版的，因此只好尝试自己修改Sphider的分词了。还好找到了SCWS这个不错的中文分词系统，只需要把他的功能加入到Sphider里面就可以了。

先按照他们的安装文档部署好Sphider和SCWS，这里使用的SCWS-1.1.6，需要部署好PHP扩展，注意Linux下要修改词库的权限，否则分词会把所有汉字单独分开。Sphider这里使用的丁廷臣简体中文完美汉化版带蜘蛛搜索引擎。

两者部署无误后，修改Sphider，找到admin文件夹下的spider文件，首先在开始加入代码初始化分词程序

注意这里使用的gbk，如果你的网页用的utf8编码，要把这里以及词典和规则文件的位置更改一下

在index_url函数中，把原有的英文分词替换掉，在$wordarray = unique_array(explode(" ", $data['content']));前面加上
$cws->send_text($data['content']); $list = $cws->get_tops(1000, $xattr); settype($list, 'array'); $wordarray=array(); $i=0; // segment foreach ($list as $tmp) { $wordarray[$i][1]=$tmp['word']; $wordarray[$i][2]=$tmp['times']; $i++; }
删除

$wordarray = unique_array(explode(" ", $data['content']));

和

$wordarray = calc_weights ($wordarray, $title, $host, $path, $data['keywords']);

两个语句，因为Sphider原有的英文分词这里就完全没必要用了，这里可以自行对$wordarray进行限制和优化，这里我写的很简单。

修改完成后，爬虫就能正常对中文进行分词了，效果还不错，注意如果出现乱码注意网页或者辞典编码是utf8还是gb2312。
查看全文

相关阅读:
原：Myeclipse10+Egit+bitbucket实现版本控制
 Myeclipse10使用git
MyEclipse 10 下在线安装插件
 转：git windows中文目录乱码问题解决
 STUN和TURN技术浅析
 原：android4.2.2蓝牙源码阅读--bluedroid部分
 原创：超简单！windows配置NDK开发环境使用JNI
c++对象的生命周期
 C++中虚析构函数的作用
 windows 命令行下简单好用的查看端口占用情况的方法

原文地址：https://www.cnblogs.com/archoncap/p/5315300.html