zoukankan      html  css  js  c++  java
  • Nutch + solr 这个配合不错哦

    因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下。

    用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI。

    首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现。

    然后在这两个地方要注意

    一是记得改Nutch过滤策略。

    Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则

    +^http://([a-z0-9]*.)*com/

    当然到你的系统要发布的时候,你可以根据你的需要改这些正则,匹配不同采集策略。
    二是schema.xml要同步的。

    Nutch和solr下应该一样的,我是用Nutch的覆盖solr的

    三是几个错误要修改好,网上基本能查到。

    主要就是改下scheme.xml里的几个参数,比如把<str name="df">text</str>值改为context呀,

    再有就是把没有分词包加到solr的sample的库目录呀,或是直接注释掉什么的,

    方法很多,大家放狗搜搜,自己再读读源码,应该很轻松搞定。

    最后就是在系统中集成的方法了,我用了solrnet,做的客户端,很轻松,查询只要3天就可以写出来,当然要做好web或是服务的话,应该也不麻烦。

    在上客户端的时候,我用的是xml形式的查询,已经有现成的封装,大家可以自己试试。

  • 相关阅读:
    CMake 3.8.2 Online Manuals
    如何查找UDID
    产品经理那些事儿学习整理笔记
    IOS KVO与NSNotificationCenter简单使用
    整理分享内容
    iOS解决两个静态库的冲突 duplicate symbol
    IOS 添加libMobileVLCKit .a到项目中编译问题
    OpenERP为form和tree视图同时指定view_id的方法
    openerp related字段解读
    openerp图片路径处理
  • 原文地址:https://www.cnblogs.com/hamwolf/p/4125404.html
Copyright © 2011-2022 走看看