论文爬取 pdf文件爬取（三） - 走看看

zoukankan html css js c++ java

论文爬取 pdf文件爬取（三）
pdf文件爬取

昨天已经爬取了所有的超链接和标题

然后现在开始拼接然后进行下一步的爬取

其中已经将全部的超链接和标题保存

然后进行遍历就可将全部的文件爬取

首先

是本地链接的拼接

上一步是得到了论文的一个链接

链接可以直接请求响应然后获得内容

标题是作为爬取下来的pdf文件的内容文件文件名

所以开始拼接

首先请求链接
```
response = requests.get(url)
```
然后拼接本地文件保存路径

自己的文件夹路径是
```
file_path = 'C:/Users/admin/Desktop/ECCV2018'
```
然后是文件名的拼接
```
PDF_path = file_path+os.path.sep+'{0}.{1}'.format(title.replace(':', '').replace('?', ''), 'pdf')
```
其中为了防止有非法字符

使用replace替换：和？

然后连接到一起
查看全文

相关阅读:
使用Zabbix服务端本地邮箱账号发送报警邮件及指定报警邮件操作记录
 分布式监控系统Zabbix--完整安装记录 -添加web页面监控
 如何为你的代码选择一个开源协议
 Android多开/分身检测
 squid介绍及其简单配置
 PS 切图、抠图
 AxureRP8实战手册
 墨刀 vs Axure RP
Android 插件化开发
 《Photoshop智能手机APP界面设计》学习笔记-转

原文地址：https://www.cnblogs.com/huangmouren233/p/14842786.html

Copyright © 2011-2022 走看看