zoukankan html css js c++ java

对于下发的文件进行爬取,减少人去下载的过程

对于政府网站下发的文件进行爬取,减少人去下载的过程

博问上有人不会,我写了一下

绝对不要加多线程多线程进去

仅供学习,不要用于商业目的

import re

import requests
from lxml.html import etree

url = 'http://www.liyang.gov.cn/default.php?mod=article&fid=163250&s99679207_start=0'
rp = requests.get(url)
re_html = etree.HTML(rp.text)
url_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/@href'
title_xpath = '//*[@id="s99679207_content"]/table/tbody/tr/td/span[1]/span/a/text()'
url_list = re_html.xpath(url_xpath)
title_list = re_html.xpath(title_xpath)
title_list = title_list[::-1]
data_url_list = []
for url_end in url_list:
    new_url = f'http://www.liyang.gov.cn/{url_end}'
    print(new_url)
    rp_1 = requests.get(new_url)
    print(rp_1.text)
    try:
        re_1_html = etree.HTML(rp_1.text)
        data_url_xpth = '//tbody/tr[1]/td[2]/a'
        data_url = re_1_html.xpath(data_url_xpth)[0]
    except:
        data_list = re.findall('<a href="(.*?)" target="_blank">', rp_1.text)
        data_url = data_list[0]
    print(data_url)
    data_url = f'http://www.liyang.gov.cn/{data_url}'
    re = requests.get(data_url)
    data = re.content
    with open(f'{title_list.pop()}.pdf', 'wb') as fw:
        fw.write(data)

查看全文

相关阅读:
机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
linux_shell_根据网站来源分桶
 mac_Alfred_快捷设置
 linux_无密登录
 crawler_Docker_解决用 JavaScript 框架开发的 Web 站点抓取
 linux下查看最消耗CPU、内存的进程
 绕过登陆常用万能密码
 ctf比赛linux文件监控和恢复shell
Python爬虫之Selenium的常用方法
 CTF比赛时准备的一些shell命令

原文地址：https://www.cnblogs.com/pythonywy/p/11279269.html