Iveely Search Engine 0.4.0 的发布

zoukankan html css js c++ java

Iveely Search Engine 0.4.0 的发布

千呼万唤始出来，Iveely Search Engine 0.4.0 的发布

　　经过无数个夜晚的奋战，以及无数个夜晚的失眠，Iveely Search Engine 0.4.0 终于熬出来了，这其中的心酸只有自己知道！虽然Iveely Search Engine 在开发阶段已经经历了第四个版本，但是其中的不足依然数不胜数，功能也不尽完善，但是也希望大家能够理解，一是毕竟还在1.0版本之内，二是人手有限,如果你想为此做出点点努力，可以发送邮件或者微博私信。

　　介绍：

　　好了，言归正传，开始介绍下Iveely Search Engine 0.4.0，本次版本主题是事件抽取。我们会从事件抽取慢慢过渡到知识提取。希望大家不要为没有达到知识提取而感到遗憾。

　　首先截图：

　　首页：

　　

　　结果页：

　　

　这个版本的调试重点，就在结果的第一条记录，那就是不断从数据中心分析出事件，当然准确率和性能是有待考验的，但是这是我们迈出知识提取的第一步，后期这依然是我们改进的重点。0.4.0版本的具体更改内容如下（由时间顺序）：

　　1. 改进分词算法，完全的去除了词库分词。

　　2. 统一了隐马尔科夫模型，HMM同时为分词和词性分析所用。

　　3. 添加了词性分析，词性分析语料库来自人民日报。

　　4. 添加了事件抽取，分析与索引，并完整显示在结果中。（命中N条，但只显示权值最高的一条）

　　5. 改进Internet信息服务，性能有一定的改善。

　　6. 添加首页和结果页界面，放弃以前的浏览器Http请求。

　　7. 其它细节调整。

　　部署与安装及使用：

　　第一步：首先，从开源主页下载发布的文件。

　　第二步：解压文件，修改配置文件Iveely.config根据实际情况，调整配置信息。下面这个配置信息，是您一定要调整的。

　　　　　　<add key="Crawler" value="http://yourwebsite.com/" />

　　第三步：双击运行IveelySE.Run.Task.exe。

　　第四步：打开浏览器，输入Http://localhost:8080，您就可以看到Iveely搜索首页，即前面两幅截图。

　　此刻，您的部署和安装即实现，但是您可能会遇到如下的问题：

　　第一：最开始搜索任何关键字都没有结果，是什么情况？

　　　最开始是从一个没有任何数据的搜索引擎开始，所以大概在运行20分钟后，在您的搜索框内才能数出结果。

第二：您可能会一直搜索不到事件信息，是什么情况？

　　　　事件信息分析与索引默认情况下，是关闭的。我之所以默认关闭它，是因为它会影响我们的性能，如果您需要这项，可以修改配置文件

　　　　 <add key="EnableEvent" value="1"/>

　　　　其中，1表示启用，0表示不启用，建议您设置为0，因为性能和效果都在继续调整阶段，如果您对此没有特殊需求关闭最佳。后期我们算法调整到最佳　　　　状态后，我们会将此默认打开。

　　问题疑惑：

　　很多网友给我发邮件，提了很多问题，我虽然一一回复了，但是我还是在这里总结一下：

　　1.　为什么没有分页？如果自己做分页如何做？

　　分页在后台做是非常麻烦而且是非常不必要的，分页在前端做比较好，实现全端和后端的完整分析。如果需要做分页，你可以修改Iveely.config配置文件中的ResultCount，默认是10，即返回10条结果（最多11条，包括事件相关搜索结果）。当你修改为100条的时候，系统会为前端返回100条结果，你可以在前端为这100条结果实现分页。

　　　　<add key="ResultCount" value="10"/>

　　2.　界面好丑，我们怎么去改进界面？

　　上一个版本的确是没有界面的，这一个版本是存在界面的，这个版本的界面只做了1个多小时，这是告诉大家，只要知道后端返回的数据格式后，完全可以自己控制界面的显示。你们可以参考这个版本的界面调用方法，去实现自己的界面，当然把我们的logo换为您自己的也是没问题的。

　　3. Iveely Search Engine 支持对多个网站进行抓取分析吗？

　　答案是可以的，修改配置文件Iveely.config中节点如下即可：

　　　　<add key="Crawler" value="http://news.cnblogs.com/,http://www.iveely.com,http://www.google.com" />

　　4. 我想利用IveelySE进行大规模站点的应用可以吗？

　　　　不想欺骗你们，这是不可以的。Iveely Search Engine 目前在很多方面是非常不足的。首先，IveelySE的数据存储目前是存在本地的;其次大规模的数据索引对本地计算机或服务器的要求也很高，这样直接导致IveelySE性能不佳;最后，IveelySE还处于实验室阶段，无法保证很多性能与效果的问题。

　　5. 有相关开发文档参考吗？

　　　　这个版本中，我也一直在写文档，以前也有，但是都是零零散散，我争取早点把文档全部整理完毕，为我们共同学习和进步提供帮助。　　　　

　　总结与下一步：

　　接下来，我们依然会将主要的精力集中在知识提取上，一方面是性能，另一方面是准确率上。性能主要集中在伪分布式处理上，准确率依然是在算法上的调整。

　　真诚的感谢一直以来对IveelySE不断支持和厚爱的朋友，正是您们的支持，IveeluSE才走的更远，真诚的谢谢！

查看全文

相关阅读:
技术债务MartinFlower
如何定义产品愿景
 领域驱动设计阶段知识总结
 领域驱动设计的价值
 什么是数字产品
 NestOS 发布：基于华为欧拉开源系统的云底座操作系统
 架子鼓MIDI及相关软件
 TM4 JDK1.8连接SqlServer报错：The driver could not establish a secure connection to SQL Server by using Secure Sockets Layer (SSL)
关于GPL协议的理解（开源与商用、免费与收费的理解）
nest js 限制客户端在一定时间内的请求次数

原文地址：https://www.cnblogs.com/Leo_wl/p/3273548.html

Iveely Search Engine 0.4.0 的发布

千呼万唤始出来，Iveely Search Engine 0.4.0 的发布