zoukankan      html  css  js  c++  java
  • 爬起点小说 day01

    先介绍下我自己爬起点小说的思路:

    1.爬取所有的类型列表
    a.链接存redis中 类型表:novel_list 具体每一种类型:bnovel_all_list(把novel_list和bnovel_list合并为bnovel_list)
    b.名字存到mongodb中,构成树链表 表名: bnovel_all_list
    2.爬取小说的名字和链接(redis:all_novel_href (只需要novels 的id) mongodb:novels上一个id作为标签)
    小说表:每次添加,去重(如果有就更新mongodb的数据(根据redis的id),没有就添加到mongodb中)(可能没有重复的)
    所有链接都放到redis(id(mongodb的id)+url)中,把小说名放到mongodb中
    3.爬小说的首页:
    1.爬取作者,书的状态(连载or完结) (更新到mongodb中)
    4.根据目录去爬取所有的章节(mongodb中章名作为键,内容存的文件位置作为值)(在mongodb中可以把汉字作为键)(mongodb章节表)
    vip:章节的处理,爬还是不爬? 爬 (要的只是书的数量,内容无所谓)
    连载和完结的处理 :将所有未完结书的最后一章链接都存到redis中,格式为书的id+链接
    每天根据这个链接去查看有没有下一章,有就去爬取,并更改mongodb的数据库,并把链接更新(
    redis的lrange or lpop操作?)
    (先执行每天的查看,未完结的每次都去爬书的首页,完结就修改mongodb的数据,未完结就pass)

    过几天介绍上代码

  • 相关阅读:
    2007上半年网络游戏企业报告总结
    2007中国网络游戏调查报告
    3G门户网总裁张向东:怎分享3G大蛋糕
    网络在线游戏开发心得(服务器端、Java)
    Apache服务器SSL配置
    详解 Windows下apache 实现 SSL
    10个既绚又实用的JQuery特效教程
    Zend Studio 快捷键
    jQuery最佳实践
    2月份13个jQuery最佳插件推荐
  • 原文地址:https://www.cnblogs.com/qieyu/p/7979184.html
Copyright © 2011-2022 走看看