zoukankan html css js c++ java

python3爬取页面内容并筛选

from urllib import request
import re
def getResponse(url):
    url_request = request.Request(url)
    url_response = request.urlopen(url_request)
    return url_response
def getData(data):
    html = re.findall(r'alt="[u4E00-u9FA5\s]+"',data)
    return html
aid = 1
for aid in range(1,123):
    html = "http://www.zhijiaow.com/ShopMallList_%s_0.html" %aid
    aid +=1    
    http_response = getResponse(html)
    data = http_response.read().decode('utf8')
    l = getData(data)
    global n
    n = 1
    for info in l:
        with open('c.txt','a') as f:
            f.write(info)
        n +=1
with open('c.txt','r') as f:
    lines = f.readlines()
with open('a.txt','a') as w:
    for l in lines:
        w.write(l.replace('"alt="','
'))

查看全文

相关阅读:
Linux 下基础命令
 jquery
系统运维
 jmeter响应断言
 测试方案和测试报告、需求变更控制
 Fiddler抓包12-AutoResponder返回本地数据（mock）
Fiddler抓包11-HTTPS证书Actions无法导出问题
 Fiddler抓包10-会话框添加查看get与post请求类型
 Fiddler抓包9-保存会话（save）
Fiddler抓包8-打断点（bpu）

原文地址：https://www.cnblogs.com/isule/p/8926754.html