zoukankan      html  css  js  c++  java
  • 论文爬取 pdf文件爬取(二)

    pdf文件爬取

    首先分析此论文网站的网站结构

    我选取的是2018年的ECCV论文

    首先进入后

    是所有的一个论文总览

    然后为了实现一个自动爬取

    需要首先截取到他的一个链接

     查看后他的一个论文的所有链接都是包含在一个dl中的

    然后dl中有好多的dd标签和dt标签

    其中dt标签中是有html表示的但是是没有论文内容的

    所以需要下载pdf文件

    所以寻找pdf文件链接

    其中pdf链接是在第二个dd下的

    其中第一个dd标签和第二个dd标签是有区别的

    其中第一个有一个form标签然后第二个是没有的直接一个a标签

    所以直接用Xpath爬取

    语句为//dl/dd/a[1]/@href

    选取第一个a标签

     然后直接爬取

    这是链接的爬取

    然后标题是在dt标签

    也是直接爬取他的text内容即可

    html = etree.HTML(html)
    indexs = html.xpath('//dl/dd/a[1]/@href')
    base_url = 'https://openaccess.thecvf.com/'
    titles = html.xpath('//dl/dt/a/text()')
  • 相关阅读:
    PDIUSBD12指令
    (转)USB的VID和PID,以及分类(Class,SubClass,Protocol)
    静态测试
    一种循环buffer结构
    RL78 芯片复位指令
    XModem协议
    位反转的最佳算法
    CCP 协议
    AUTOSAR 架构
    HEX 文件格式
  • 原文地址:https://www.cnblogs.com/huangmouren233/p/14842730.html
Copyright © 2011-2022 走看看