zoukankan      html  css  js  c++  java
  • 自己动手写搜索引擎(常搜吧项目展示)(Java、Lucene、hadoop)

    学习了两星期的Lucene,对它的基础知识有了一定的掌握,并开发了自己的常搜吧项目。下面展示下我的项目,其实用到的都是很Lucene中很基础的知识,以及第三方工具,例如XPDF,Htmlparser,paoding分词器 .etc 。


    本项目采用Struts2 + Mybatis + spring框架搭建,数据库用的Oracle。(博主只是到了灵活应用的程度,对于源码还是小白)。前端采用了国外的开源框架(Bootstrap)非常的强大和美观。为了良好的资源,搜图片部分利用了Flickr的API完成。


    项目完成后的感受是:对于学习Java的朋友,希望大家能够快速学习,坚持学习。先学到混饭的水平,然后慢慢再深入吧。总之:保持一直在学习的态度就好。


    1、主页面:(简单、漂亮、o(∩_∩)o )


    2、搜文档(支持pdf和word,Pdf格式利用了Xpdf转换txt、Word采用POI解析)


    3、搜索CSDN(利用了heritrix网络爬虫爬取CSDN全站,然后递归文件利用Htmlparser解析建立索引)


    4、搜MP3(主要利用了jquery,以及HTML5里的<audio>标签,兼容性比较差,考虑只是练习,不再去完善,兼容Firefox、chrom .etc)


    5、搜图片(利用Flickr的官方API借口,比较容易实现)


    6、管理员界面(同样是利用国外的Bootstrap框架的第三方Demo改写)


    7、音乐功能管理页面


    后来想想,其实实现这些功能,完全用不到数据库的 。 流程就是 :资源 - 解析 - 分词 - 索引 - 检索 。

    对于Lucene的学习先到此为止,Java编程真的很庞大,希望以后能够深入学习,理解源码才是真正的大神。


    计划只对lucene有所了解,目地是为了学习hadoop,为自己加油 ~


  • 相关阅读:
    寒假Day37:设计模式(封装+继承+多态等)
    INF ClassInstall32 Section详解
    VS2008编译的程序运行提示“由于应用程序配置不正确,应用程序未能启动”
    INF Models Section
    INF DDInstall.Services Section
    INF ClassInstall32.Services Section详解
    INF DDInstall Section
    INF SourceDisksNames Section 和 SourceDisksFiles Section详解
    sys文件查看DbgPrint函数打印的信息
    IRP(I/O Request Package)详解
  • 原文地址:https://www.cnblogs.com/xinyuyuanm/p/3002722.html
Copyright © 2011-2022 走看看