本人大三学生一枚,最近突发奇想,想写一个搜索引擎。
git地址:git@github.com:liuxiaohao/cqusearch.git
先从爬虫开始写吧。
初步决定使用java+mysql完成。
初步完成数据库设计
完成hibernate配置。
完成页面的抓取,这里借助了java的htmlparser工具。
完成 宽度优先的抓取网页界面,url表储存在java的hashset里面(便于查找)。
开始网页正文提取,依旧借助htmlparser。
网页正文提取有进展,开始完成爬虫的多线程。
多线程完成,开始尝试线程池。