抓取Web of Science经验分享

zoukankan html css js c++ java

抓取Web of Science经验分享

受新加坡某科研机构委托，需要对国内469所高校，156个学科，25年内在中的“引文报告”（如下图示例）数据进行采集。检索次数超180万次。

该网站“需要登陆，并且会封账号”，具有很强的典型性，特对本网站的采集经验分享如下：

1. Web of Science必须登陆才能检索，而且同一个账号不能重复登陆，新的登陆会造成同一账号老的会话失效。

2. 同一账号的会话可以多线程使用，不会互相干扰检索结果。

3. 账号可能会被封，被封之后会提示“您帐户的 "漫游" 功能已被禁用”（如下图所示）。这个可能是Web of Science运维人工干预的，在我们的测试过程中，在相同的访问频率下，有的账号只能搜索一两万次就被封了，而有的却能搜索十几万次。在爬虫中我们加入了自动切换账号的功能，如果检测到账号被封则自动换用下一个账号，不需要人工介入。我们总共进行了超过180次的搜索，总共使用了25个账号。

4. 账号每日访问次数有限制，超过之后会提示“Server.IDLimit”之类错误（如下图所示），如果检测到账号被封则自动换用下一个账号，也不需要人工介入。

5. Cookie会不停的变动，每次查询网站都会返回新的Cookie，不能持续的使用老的Cookie（有时效性），否则一段时间后会出现Timeout问题。我们一开始以为是代理的问题，后来经过多次验证是因为Cookie变化了造成的，应该是触发了WAF的防护策略。在我们的爬虫中，如果连续检测到多次出现Timeout问题，爬虫自动重新登陆，即可恢复正常。

6. 每搜索满200次系统会提示“记录本次会话中所有检索的“检索历史” 列表已满”，造成检索失败。所以爬虫中需要每隔200次清空一下搜索结果。

7. 会出现搜索失败的情况，爬虫需要进行重试直至成功。

8. 可以不使用代理IP，我们采集的过程中未发现该系统对IP访问频率有限制。

9. 为了不对系统造成过重负担（Richard曾说过在采集别人网站的时候要心怀感恩），我们爬虫仅使用了5个线程。进行180万搜索，共耗时约20天。

10. 由于搜索需要大量时间，爬虫使用了缓存机制，防止客户修改字段后需要二次下载。

查看全文

相关阅读:
现代软件工程第一章【概论】第8题——原旭莹，张晓丽
 现代软件工程第一章【概论】第2题——孙雪莹
 现代软件工程第一章【概论】第11题——原旭莹
 现代软件工程第一章【概论】第6题——原旭莹
 现代软件工程第一章【概论】第9题——孙雪莹
 现代软件工程第一章【概论】第7题——原旭莹
 现代软件工程第一章【概论】第12题——张晓丽
 现代软件工程第一章【概论】第5题——原旭莹
 现代软件工程第一章【概论】第4题——张功
 [Python]conda与 virtualenv虚拟环境配置

原文地址：https://www.cnblogs.com/cuihongyu3503319/p/14620436.html

最新文章
作业
 周总结9
周总结8
周总结7
周总结6
代码审核复查
 周总结5
周总结4
周总结1
javascript引擎工作原理