zoukankan      html  css  js  c++  java
  • 论文爬取 pdf文件爬取(二)

    pdf文件爬取

    首先分析此论文网站的网站结构

    我选取的是2018年的ECCV论文

    首先进入后

    是所有的一个论文总览

    然后为了实现一个自动爬取

    需要首先截取到他的一个链接

     查看后他的一个论文的所有链接都是包含在一个dl中的

    然后dl中有好多的dd标签和dt标签

    其中dt标签中是有html表示的但是是没有论文内容的

    所以需要下载pdf文件

    所以寻找pdf文件链接

    其中pdf链接是在第二个dd下的

    其中第一个dd标签和第二个dd标签是有区别的

    其中第一个有一个form标签然后第二个是没有的直接一个a标签

    所以直接用Xpath爬取

    语句为//dl/dd/a[1]/@href

    选取第一个a标签

     然后直接爬取

    这是链接的爬取

    然后标题是在dt标签

    也是直接爬取他的text内容即可

    html = etree.HTML(html)
    indexs = html.xpath('//dl/dd/a[1]/@href')
    base_url = 'https://openaccess.thecvf.com/'
    titles = html.xpath('//dl/dt/a/text()')
  • 相关阅读:
    多播委托和匿名方法再加上Lambda表达式
    委托
    从警察抓小偷看委托
    StringBuilder
    C#修饰符详解
    数据结构与算法之队列
    数据结构与算法之栈
    win10重复安装
    网络编程基础
    PrintPreviewControl
  • 原文地址:https://www.cnblogs.com/huangmouren233/p/14842730.html
Copyright © 2011-2022 走看看