zoukankan      html  css  js  c++  java
  • 团队-爬取豆瓣电影Top250-项目总结

    团队名称:极限定理

    项目名称:爬取豆瓣电影Top250

    组长:邵文强

    成员:张晓亮、潘新宇、邵翰庆、宁培强、李国峰

    关于功能:我们所做的是一个能够爬取豆瓣电影网的前250的排名程序,针对电影类别查询,统计,整合。

    需求分析阶段:这个只是一个很小的程序,目的是为了帮助一部分懒人,当他们想找一下好看的电影的时候,又不想通过打开网页来一个一个翻,可以通过使用我们所做的一个小的程序很快爬取到前250的电影供参考,而且还有影片介绍等等可以进一步了解影片,可以供参考。

    软件设计阶段:

      分析设计:需求分析,项目的框架,网络爬虫,半结构化,信息提取,查询的预处理

      功能需求分析:.能够下载任何http协议和HTTPS协议的链接的网页,构造http请求中的GET请求,分析http响应请求。,提取网页链接并统计数量。,保存,能够正确的保存网页及网页信息到文件。

      需要说明的问题:

      1,.利用系统函数把网页读入内存。

      2.利用正则表达式提取相关信息。

      3.把一个网页URL写入文件保存。

      模块:

         1.构造GET请求

      2.链接服务器。

      3.发送GET请求

      4.接受网站返回的数据。

      异常事件:

      1.申请大块内存失败。

      2.分配内存对象失败。

      3.链接网站服务器失败。

      4.发送请求失败。

      5.接受网站返回数据失败

      基本工具的使用

      1)   urllib2:  urllib2的基本用途、只要函数,如何post数据,cookie的设置

      2)异常处理的方式:

        a)try...except

        b)Http异常码

      3) 文件读写创建等常用操作

      4)关于编码问题

      5)运用以上工具实现一个基本网页的抓取。

    测试阶段:

      对爬虫程序的设计:输入不合法的URL。能弹出错误提示。

      输入各种类型的URL,只对http和HTTPS链接处理其他链接被视为异常。

     

  • 相关阅读:
    树形dp--P2014 [CTSC1997]选课
    背包变形--P1759 通天之潜水
    区间dp--P1880 [NOI1995]石子合并
    动态规划--P2758 编辑距离
    筛法--CF449C Jzzhu and Apples
    BZOJ3998: [TJOI2015]弦论(后缀自动机,Parent树)
    BZOJ3530: [Sdoi2014]数数(Trie图,数位Dp)
    BZOJ1444: [Jsoi2009]有趣的游戏(Trie图,矩乘)
    BZOJ1195: [HNOI2006]最短母串(Trie图,搜索)
    BZOJ3238: [Ahoi2013]差异(后缀数组)
  • 原文地址:https://www.cnblogs.com/npqnpq/p/7931997.html
Copyright © 2011-2022 走看看