zoukankan html css js c++ java

python应用：爬虫实例(动态网页)

以爬取搜狗图片为例，网页特点：采用“瀑布流”的方式加载图片，图片的真实地址存放在XHR中

 1 #-*-coding:utf8-*-
 2 import requests
 3 import urllib
 4 import json
 5 import math
 6 import os
 7  
 8 class SG:
 9     def __init__(self,pic_num):
10         self.num = pic_num
11         self.user_agent = 'Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/61.0'      #请求头属性（模拟浏览器访问）
12         self.headers = {'User-Agent' : self.user_agent}
13 
14     def get_img(self):
15         end = int(math.ceil(float(self.num)/48))
16         #print end
17         name = 1
18         #获取图片真实地址并保存到本地文件夹
19         for start in range (0,end):
20             url = 'http://pic.sogou.com/pics?query=%B1%DA%D6%BD&mode=1&dm=4&cwidth=1920&cheight=1080&start='+str(start)+'&reqType=ajax&reqFrom=result&tn=0'
21             imgs = requests.get(url,params=self.headers)
22             #print imgs
23             #搜狗图片真实地址存放在XHR中，访问发现是json文件，故解析json文件
24             jd = json.loads(imgs.text)
25             jd = jd['items']    #所有图片的信息都存在item数组中
26             imgs_url = []
27             for j in jd:
28                 if "=" not in j['pic_url']:  #图片真实地址则存放在item元素中pic_url中
29                     imgs_url.append(j['pic_url'])
30                 else:
31                     print j['pic_url']
32             #print len(imgs_url)
33             
34             for img_url in imgs_url:
35                 #新建文件夹
36                 if not os.path.exists('picture'):
37                     os.makedirs('picture')
38                 print img_url
39 
40                 #保存图片到本地文件夹
41                 print('**********'+str(name)+'_1.jpg*********'+'      Downloading')
42                 #方法1
43                 urllib.urlretrieve(img_url,'picture\'+str(name)+'_1.jpg')
44                 
45                 print('**********'+str(name)+'_2.jpg*********'+'      Downloading')
46                 #方法2  'wb'以二进制方式写数据
47                 with open('picture\'+str(name)+'_2.jpg','wb') as f:
48                     f.write(requests.get(img_url,params=self.headers,allow_redirects=False).content)
49 
50                 name += 1
51                         
52         print('Download complete!')
53 
54 SG(100).get_img()
55                 
56

使用方法二时，如果使用参数allow_redirects=False,容易导致下载内容为空的情况；如果不使用该参数（默认是True），则容易导致页面重定向过多的错误。具体使用时，根据情况选择是否使用

查看全文

相关阅读:
linux防止sshd被爆破(安装denyhosts)
记一次网站服务器搬迁实录
 用几条shell命令快速去重10G数据
 如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）
如何让你的scrapy爬虫不再被ban
scrapy爬虫成长日记之将抓取内容写入mysql数据库
 scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据
 python将json格式的数据转换成文本格式的数据或sql文件
 shell脚本去重的几种方法

原文地址：https://www.cnblogs.com/jpapplication/p/9610758.html