敏捷冲刺七
Task1:团队TSP
| 团队任务 | 预估时间 | 实际时间 | 完成日期 |
|---|---|---|---|
| 搜索引擎相关内容了解 | 300 | 500 | 11-5 |
| 数据库表的创建 | 180 | 150 | 11-5 |
| 学院网站的爬取 | 210 | 460 | 11-10 |
| 建立数据库索引 | 190 | 230 | 11-12 |
| 代码测试 | 180 | 150 | 11-16 |
| 前端页面的设计 | 240 | 200 | 11-15 |
| 前后端的交互 | 300 | ing | 11-18 |
| 搜索引擎测试 | 260 | 240 | 11-18 |
Task2:描述项目进展
| 成员 | 任务安排 | 预期任务量/小时 |
|---|---|---|
| 秦玉(组长) | 页面用户提交请求的参数处理、数据库内容同步到es、写博客 | 230 |
| 陈晓菲 | 页面用户提交请求的参数处理、数据库内容同步到es、修改爬虫代码 | 260 |
| 韩烨 | 测试工具的了解与应用 | 120 |
| 姚雯婷 | 修改爬虫代码、尝试写es部署相关批处理文件 | 180 |
| 罗佳 | 测试前端网站、对个别样式进行细节整改 | 180 |
| 高天 | 整合代码融合、尝试写es部署相关批处理文件 | 150 |
Task3:目前取得成果
关于上次留下的爬虫的问题,后来进行了改进,主要有以下两个改动:
- 上一次的爬虫爬取的数据只有几十条,后来通过测试发现是因为没有进行深层次的爬取,解决方法是通过获取学院网页上每一个板块的URL,然后也将其列入爬取链接的范围,然后就可以爬取到完整的数据了。
- 另外一个问题是学院的网页在排版上不是很规范,导致存入数据库的源码中,字体样式都不一样,然后导致显示出来的效果也是乱七八糟的,因为没办法对学院网站的代码进行规范,所以只能从爬取的数据入手,后来决定的方法是修改存储的数据,不再将源码进行保存,而只保留文字内容。这样就可以使搜索引擎的字体样式得到规范。
Task4:项目燃尽图

Task5:提交历史截图

Task6:站立式会议照片
