zoukankan      html  css  js  c++  java
  • 爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志


    日志:(CREATE BY WLC)

    1:IEEE文章摘要爬取
    ①:运行Crawler目录下的IEEE1024.php (16年10月24日)
    ②:运行根目录下的IEEE1025.php(16年10月25日)
    ③:会议->http://ieeexplore.ieee.org/xpl/conhome.jsp?punumber=1000359
    ④:期刊->eg:IEEE Transactions on Image Processing http://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=7331739&punumber=83 (past issue)

    2:Springer文章摘要爬取
    ①:运行Crawler目录下的Springer1025.php(16年10月25日)摘要变化较大
    ②:运行根目录下的Springer1027.php(16年10月27日)

    3:ACM文章摘要爬取
    ①:运行Crawler目录下的ACM1101.php(16年11月01日)
    ②:运行根目录下的ACM1101.php(16年11月01日)
    ③:会议->http://dl.acm.org/proceedings.cfm
    ④:期刊->http://dl.acm.org/pub_series.cfm?id=J774 (table of content)

    4: AAAI文章摘要爬取
    ①:运行根目录下AAAI1104.php(16年11月9日)目录链接获取暂时省略
    ②:AAAI 16年份链接->http://www.aaai.org/Library/AAAI/aaai16contents.php,只替换链接中数字即可(16年11月9日)
    ③:AAAI会议汇总 ->http://www.aaai.org/Library/AAAI/aaai-library.php

    5:SIAM文章摘要爬取
    ①:运行Crawler目录下的SIAM1109.php(16年11月09日)
    ②:运行根目录下的SIAM1109.php(16年11月09日)
    ③:期刊汇总->http://epubs.siam.org/loi/smjcat

    6:ScienceDirect文章摘要爬取
    ①:运行Crawler目录下的ScienceDirect1110.php(16年11月10日)目录链接暂时省略
    ②:运行根目录下的SIAM1110.php(16年11月10日)
    ③:期刊汇总->http://www.sciencedirect.com/science/journal/00043702/240

    7: JMLR文章摘要爬取
    ①:运行Crawler目录下的JMLR.php(16年11月11日)目录链接暂时省略
    ②:运行根目录下的SIAM1110.php(16年11月11日)
    ③:期刊->http://www.jmlr.org/papers/v17/

    8: ①:修改数据库finish字段1 -爬取完成 0 -待爬取 -1 -爬取过程出现问题
    ②:运行Crawler_YearAndLinks.php 获得会议、期刊 的年份、链接
    ③:运行Crawler_ConferenceAndJournal.php 获取title 、author 、abstracts 、 links(2016/11/21)

    注意点:
    ①:rsdb.sql数据库中表paper_page_v2 中 finish 属性中 1为爬取完成的链接 0为未爬取页面 -1为其他情况
    ②:index.php文件为开发过程中 *测试* springer爬取摘要
    ③:PHPJsonDecode.php文件为 *测试* 模拟浏览器得到HTML字符串(16年10月31日)
    ④:ACM(http://dl.acm.org/)对爬虫的应对方案较为完善,谨慎使用否则导致IP被暂时封掉
    <用网站流量统计系统来改进实时反爬虫系统 ><用时间窗口来改进实时反爬虫系统 >(16年11月01日)
    ⑤:AAAI网站每一年的AI会议在一个网页上并没有采用分页,因此爬取的Array非常大开始导致内存溢出,后分批爬取取得效果较好(2016/11/9)
    ⑥:当获取到大量文章题目、摘要、链接插入数据库时,速度较慢,等待一小段时间检测数据库变化(2016/11/9)
    ⑦:遇到内存溢出问题首先应该是检测php程序中没有释放的变量使用unset方法,再次就是修改ini文件的memory-limit=128M
    默认128M可以改大一些(2016/11/9)

  • 相关阅读:
    Go 语言打包静态文件
    Go 语言编写单元测试
    从开源项目看 Python 单元测试
    从开源项目看python代码注释
    Celery 源码解析八:State 和 Result
    Celery 源码解析七:Worker 之间的交互
    Celery 源码解析六:Events 的实现
    Celery 源码解析五: 远程控制管理
    Celery 源码解析四: 定时任务的实现
    覆盖equals时请遵守通用约定
  • 原文地址:https://www.cnblogs.com/wlc297984368/p/6047027.html
Copyright © 2011-2022 走看看