zoukankan      html  css  js  c++  java
  • SCRUM 12.20

    以下为我们爬虫遇到问题的报告

         我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:

    • 美团反爬机制:

        由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反爬机制,每当我们爬取3到5的网页的内容时,就不能再继续爬取。但我们并没有因此放弃,我们又尝试了其他     方法。我们尝试着写程序把美团网页给下载下来,但是发现下载下来的网页全是报错网页,到最后我们直接用浏览器打开美团的网页都打不开,不得不放弃美团。

    • 大众点评外卖,百度外卖,淘点点外卖:

        在爬取美团失败之后,我们也并没有直接放弃,又尝试了其他外卖网站,但都通通碰壁。

        首先是大众点评,也有反扒机制,网页下载下来和美团的一样全是出错网页。百度外卖也是如此。

        还有就是淘点点外卖。这个是比较特殊的问题,因为淘点点外卖是和淘宝账号关联的,订餐以前必须先登陆淘宝账户。所以我们爬取的时候只能以某一个团队成员的账户进行爬取。结果是,网页能成功爬取下来,但是爬取得到的链接再次打开时打开的却是淘宝的登录界     面,自然信息就无法成功获取。

    最后,我们负责爬虫的 成员决定不再爬取其他外卖网站的信息,而是转向爬虫程序的性能提升,希望能做到我们app数据的实时更新。

    成员任务分配如下

    成员 已完成任务 新任务
    彭林江 研究美团爬虫  落实API
    牛强  研究美团爬虫 落实意见反馈功能测试
    高雅智 研究美团爬虫 测试已完成组件
    郝倩 研究遍历美团数据方法 提升爬虫程序性能
    王卓 研究遍历美团数据方法 提升爬虫程序性能
    张明培育 实施UI改善 实施UI改善

    燃尽图(TFS还是有问题,无法生成正常的燃尽图,等到正常了再发)

  • 相关阅读:
    java算法集训结果填空题练习2
    java算法集训结果填空题练习1
    java算法集训结果填空题练习1
    java算法集训结果填空题练习1
    java算法集训结果填空题练习1
    java算法集训结果填空题练习1
    java算法集训代码填空题练习3
    java算法集训代码填空题练习3
    java算法集训代码填空题练习3
    java算法集训代码填空题练习3
  • 原文地址:https://www.cnblogs.com/sixsix/p/4175744.html
Copyright © 2011-2022 走看看