百度性感美女壁纸了解一下,不为别的,是为了能更好的学习Python!我这样说你们信吗?
只要看到有妹子的照片的网站,我就是想要批量下载一下!
为什么要学网络爬虫
(1) 学习网络爬虫,可以私人定制一个搜索引擎,更好地理解数据采集原理
(2) 为大数据分析提供更多高质量的数据源,获取更多有价值的信息
(3) 可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更好地进行搜索引擎优化
(4) 从就业角度来说,爬虫工程师也是紧缺的人才,学习网络爬虫对就业来说非常有利
大互联网公司
我原来在互联网公司,觉得获取数据so easy。只要你需要,好像各种数据都有,数据多到必须把一些不是很重要的的数据按期老化掉,不重要的数据不接受。
传统行业和小公司
离开大互联网公司后,接触的公司也比较多了,原来很多公司都没有数据,但是还是想搞大数据。我原来也是不理解,你没数据搞啥大数据吗?这不是让马儿跑,还不给马儿草么。
但是,现在我不这样想了。在大数据的热潮下,大家都怕错过这个风口,所以必须参加进来;再大数据对传统行业的改变,大家也有目共睹,比如uber对打车的改变,余额宝对金融的改变等。所以我们需要想办法获取数据,而不是没有数据我们就不搞大数据了。
数据来源
一方面,使自己的产品互联网化,数据可以积累起来,但是路程漫长。
另一方面,从互联网中获取数据。但是互联网中的数据又不开放,那么爬虫就派上用场了,而且还可以快速获取数据。
专题主要内容
爬虫技术交流
数据分享
给代码 给代码 好东西 必须分享 大家一起享受!
1 这里给大家分享一套系统Python学习教程资源 2 加一下我建的Python技术的学习扣裙;九三七六六七五零九,一起学习 3 # !/usr/bin/env python 4 # -*- coding:utf-8 -*- 5 import requests 6 import json 7 # 定义一个请求函数,接收页面参数 8 def get_page(page): 9 # 把页面参数添加在url的字符串当中 10 url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=美女&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=美女&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={}&rn=30&gsm=1e'.format( 11 page) 12 # 请求网站,并且得到网站的响应 13 response = requests.get(url) 14 # 判断状态的状况 15 if response.status_code == 200: 16 # 返回文本文件信息 17 return response.text 18 def json_load(text): 19 # 把文本文件处理成字典格式 20 jsondict = json.loads(text) 21 # 创建一个空的合集,作用是去重 22 urlset = set() 23 # 检查字典里面是否包含了data这个值 24 if 'data' in jsondict.keys(): 25 # 从jsondict中取出data这个字典里面的东西,依次赋值给items! 26 for items in jsondict.get('data'): 27 # 异常处理,不是每一行数据都包含thumbURL这个数据的 28 try: 29 urlset.add(items['thumbURL']) 30 except: 31 pass 32 return urlset 33 def down_cont(url): 34 response = requests.get(url) 35 name = url.split(',')[-1].split('&')[0] 36 if response.status_code == 200: 37 # 表示,如果文件名字相同,就删除当前文件,然后再创建一个一样名字的文件 38 with open('./images/%s.jpg' % name, 'wb') as f: 39 print('正在下载当前图片: ' + url) 40 # 以二进制的方法写入到本地 41 f.write(response.content) 42 def main(): 43 for p in range(5): 44 print('正在下载 %s页 的图片' % p) 45 page = p * 30 46 text = get_page(page) 47 urlset = json_load(text) 48 for url in urlset: 49 down_cont(url) 50 if __name__ == '__main__': 51 main()
运行效果图