论文爬取 pdf文件爬取（二） - 走看看

zoukankan html css js c++ java

论文爬取 pdf文件爬取（二）
pdf文件爬取

首先分析此论文网站的网站结构

我选取的是2018年的ECCV论文

首先进入后

是所有的一个论文总览

然后为了实现一个自动爬取

需要首先截取到他的一个链接

查看后他的一个论文的所有链接都是包含在一个dl中的

然后dl中有好多的dd标签和dt标签

其中dt标签中是有html表示的但是是没有论文内容的

所以需要下载pdf文件

所以寻找pdf文件链接

其中pdf链接是在第二个dd下的

其中第一个dd标签和第二个dd标签是有区别的

其中第一个有一个form标签然后第二个是没有的直接一个a标签

所以直接用Xpath爬取

语句为//dl/dd/a[1]/@href

选取第一个a标签

然后直接爬取

这是链接的爬取

然后标题是在dt标签

也是直接爬取他的text内容即可
```
html = etree.HTML(html)
indexs = html.xpath('//dl/dd/a[1]/@href')
base_url = 'https://openaccess.thecvf.com/'
titles = html.xpath('//dl/dt/a/text()')
```
查看全文

相关阅读:
牛人一个
 hdu 1106 排序
 中国历史上著名的年号
 十万个为什么 —— 名词解释（历史）
十万个为什么 —— 名词解释（历史）
数学可视化
 数学可视化
 高观点下的初等数学
 高观点下的初等数学
 同一性（identical）

原文地址：https://www.cnblogs.com/huangmouren233/p/14842730.html

Copyright © 2011-2022 走看看