zoukankan      html  css  js  c++  java
  • 写一个自己的搜索引擎(1)

    本人大三学生一枚,最近突发奇想,想写一个搜索引擎。

    git地址:git@github.com:liuxiaohao/cqusearch.git

    先从爬虫开始写吧。

    初步决定使用java+mysql完成。

    初步完成数据库设计

    完成hibernate配置。

    完成页面的抓取,这里借助了java的htmlparser工具。

    完成 宽度优先的抓取网页界面,url表储存在java的hashset里面(便于查找)。

    开始网页正文提取,依旧借助htmlparser。

    网页正文提取有进展,开始完成爬虫的多线程。

    多线程完成,开始尝试线程池。

  • 相关阅读:
    noip模拟赛#38
    noip模拟赛#45
    noip模拟赛#15
    noip模拟赛#14
    noip模拟赛
    rp++
    bzoj2127: happiness
    bzoj3209:3209: 花神的数论题
    10.1 plan
    FFT
  • 原文地址:https://www.cnblogs.com/lxhomj/p/2755564.html
Copyright © 2011-2022 走看看