Jupyter Notebook
代理+cookie处理
Last Checkpoint: 9小时前
(autosaved)
Current Kernel Logo
Python 3
File
Edit
View
Insert
Cell
Kernel
Widgets
Help
需求文档的定制
糗事百科的段子内容和作者(xpath的管道符)名称进行爬取,然后存储到mysql中or文本
http://sc.chinaz.com/jianli/free.html爬取简历模板
HTTPConnectionPool(host:XX)Max retries exceeded with url。
原因:
1.当你在短时间内发起高频请求的时候,http的连接池中的连接资源被耗尽。(http1.1默认长连接,一直占着,http1.0不会)
Connection:keep-alive
2.ip被封
解决:
Connection:'close'
爬取一个你感兴趣的网站数据
数据解析
目的:实现聚焦爬虫!!!
数据解析的通用原理:
1.标签定位
2.数据提取
bs4:
1.实例化一个BeautifulSoup的对象,将即将被解析的页面源码加载到该对象
2.属性和方法实现标签定位和数据的提取
soup.tagName
soup.find/findall('tagName',class='value')
select('选择器'):返回的是列表
tag.text/string:字符串
tag['attrName']
xpath:xpath方法返回的一定是列表
表达式最左侧的/ 和 //的区别 # 从整个文本,从任一层文本
非最左侧的/和//的区别 # 单个 , 所有
属性定位://div[@class="xxx"]
索引定位://div[2]
/text() //text()
/div/a/@href
代理操作
cookie的操作
验证码的识别
模拟登陆
代理操作
目的:为解决ip被封的情况
什么是代理?
代理服务器:fiddler
为什么使用了代理就可以更改请求对应的ip呢?
本机的请求会先发送给代理服务器,代理服务器会接受本机发送过来的请求(当前请求对应的ip就是本机ip),然后代理服务器会将该请求进行转发,转发之后的请求对应的ip就是代理服务器的ip。
提供免费代理ip的平台
www.goubanjia.com
快代理
西祠代理
代理精灵:http://http.zhiliandaili.cn
代理ip的匿名度
透明:使用了透明的代理ip,则对方服务器知道你当前发起的请求使用了代理服务器并且可以监测到你真实的ip
匿名:知道你使用了代理服务器不知道你的真实ip
高匿:不知道你使用了代理服务器也不知道你的真实ip
代理ip的类型
http:该类型的代理IP只可以转发http协议的请求
https:只可以转发https协议的请求
代理测试
import requests
from lxml import etree
import random
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
代理测试
import requests
from lxml import etree
import random
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
构建一个简易的ip池
proxy_list = [
{'https':'212.64.51.13:8888'},
{'https':'212.64.51.13:8888'},
{'https':'212.64.51.13:8888'},
]
构建一个简易的ip池
proxy_list = [
{'https':'212.64.51.13:8888'},
{'https':'212.64.51.13:8888'},
{'https':'212.64.51.13:8888'},
]
url = 'https://www.baidu.com/s?ie=UTF-8&wd=ip'
proxies指定代理ip
page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).text
with open('ip.html','w',encoding='utf-8') as fp:
fp.write(page_text)
NameError Traceback (most recent call last)
1 url = 'https://www.baidu.com/s?ie=UTF-8&wd=ip'
2 #proxies指定代理ip
----> 3 page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).text
4 with open('ip.html','w',encoding='utf-8') as fp:
5 fp.write(page_text)
NameError: name 'proxy_list' is not defined
如何构建一个标准的代理ip池
1.取各大平台中爬取大量的免费代理ip
2.校验出可用的代理ip
使用每一个代理ip进行请求发送,监测响应状态码是否为200
3.将可用的代理ip进行存储(redis)
all_ips = []
ip_url = 'http://ip.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=53&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson='
page_text = requests.get(ip_url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
ip = {'https':ip}
all_ips.append(ip)
all_ips = []
ip_url = 'http://ip.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=53&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson='
page_text = requests.get(ip_url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
ip = {'https':ip}
all_ips.append(ip)
url = 'https://www.xicidaili.com/nn/%d'
url = 'https://www.xicidaili.com/nn/%d'
for page in range(1,100):
print('正在爬取第{}页的数据!'.format(page))
new_url = format(url%page)
page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(all_ips)).text
tree = etree.HTML(page_text)
tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
for tr in tr_list:
ip = tr.xpath('./td[2]/text()')[0]
port = tr.xpath('./td[3]/text()')[0]
ip_type = tr.xpath('./td[6]/text()')[0]
dic = {
'ip':ip,
'port':port,
'type':ip_type
}
all_ips.append(dic)
print(len(all_ips))
Cookie
什么是cookie?
保存在客户端的键值对
爬取雪球网中的新闻数据:https://xueqiu.com/
通过抓包工具捕获的基于ajax请求的数据包中提取的url
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20343389&count=15&category=-1'
json_data = requests.get(url=url,headers=headers).json()
print(json_data)
{'error_description': '遇到错误,请刷新页面或者重新登录帐号后再试', 'error_uri': '/v4/statuses/public_timeline_by_category.json', 'error_data': None, 'error_code': '400016'}
cookie的破解方式
手动处理:
通过抓包工具将请求携带的cookie添加到headers中
弊端:cookie会有有效时长,cookie还是动态变化
自动处理:
使用session进行cookie的自动保存和携带
session是可以进行请求发送的,发送请求的方式和requests一样
如果使用session进行请求发送,在请求的过程中产生了cookie,则该cookie会被自动存储到session对象中
如果使用了携带cookie的session再次进行请求发送,则该次请求就时携带cookie进行的请求发送
创建一个session对象
session = requests.Session()
将cookie保存到session对象中
first_url = 'https://xueqiu.com/'
session.get(url=first_url,headers=headers)#为了获取cookie且将cookie存储到session中
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20343389&count=15&category=-1'
json_data = session.get(url=url,headers=headers).json()#携带cookie发起的请求
json_data
NameError Traceback (most recent call last)
1 #创建一个session对象
----> 2 session = requests.Session()
3 #将cookie保存到session对象中
4 first_url = 'https://xueqiu.com/'
5 session.get(url=first_url,headers=headers)#为了获取cookie且将cookie存储到session中
NameError: name 'requests' is not defined
验证码的识别
超级鹰:http://www.chaojiying.com/about.html
使用流程:
注册:用户中心身份的账号
登陆:
充值一块
创建一个软件:软件ID-》生成一个软件ID
下载示例代码:下载基于python的示例代码
云打码:http://www.yundama.com/demo.html
import requests
from hashlib import md5
class Chaojiying_Client(object):
def init(self, username, password, soft_id):
self.username = username
password = password.encode('utf8')
self.password = md5(password).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
def PostPic(self, im, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
return r.json()
def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
Chaojiying_Client
def getCodeImgText(imgPath,imgType):
chaojiying = Chaojiying_Client('bobo328410948', 'bobo328410948', '899370')#用户中心>>软件ID 生成一个替换 96001
im = open(imgPath, 'rb').read()#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
return chaojiying.PostPic(im,imgType)['pic_str']
古诗文网的验证码识别操作
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
page_text = requests.get(url,headers=headers).text
tree = etree.HTML(page_text)
img_src = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0]
print(img_src)
img_data = requests.get(url=img_src,headers=headers).content
with open('codeImg.jpg','wb') as fp:
fp.write(img_data)
进行验证码的识别
getCodeImgText('codeImg.jpg',1004)
古诗文网的验证码识别操作
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
page_text = requests.get(url,headers=headers).text
tree = etree.HTML(page_text)
img_src = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0]
print(img_src)
img_data = requests.get(url=img_src,headers=headers).content
with open('codeImg.jpg','wb') as fp:
fp.write(img_data)
进行验证码的识别
getCodeImgText('codeImg.jpg',1004)
https://so.gushiwen.org/RandCode.ashx
'abt9'
s = requests.Session()
模拟登陆
古诗文网的验证码识别操作
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
page_text = s.get(url,headers=headers).text
tree = etree.HTML(page_text)
img_src = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0]
img_data = s.get(url=img_src,headers=headers).content
with open('codeImg.jpg','wb') as fp:
fp.write(img_data)
解析动态变化的请求参数
__VIEWSTATE = tree.xpath('//input[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = tree.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0]
print(__VIEWSTATE,__VIEWSTATEGENERATOR)
进行验证码的识别
code_text = getCodeImgText('codeImg.jpg',1004)
print(code_text)
login_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3A%2F%2Fso.gushiwen.org%2Fuser%2Fcollect.aspx'
data = {
#下面两个请求参数是动态变化
#通长情况下动态变化的请求参数会被隐藏在前台页面中
'__VIEWSTATE': __VIEWSTATE,
'__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
'from': 'http://so.gushiwen.org/user/collect.aspx',
'email': 'www.zhangbowudi@qq.com',
'pwd': 'bobo328410948',
'code': code_text,
'denglu': '登录',
}
登陆成功之后对应的首页页面源码
main_page_text = s.post(url=login_url,headers=headers,data=data).text
with open('./main.html','w',encoding='utf-8') as fp:
fp.write(main_page_text)
bYMP3RE7FaZbXTvLHv5jqvU+oBFf724TXFoNPnly3qgtvK1IuW803mee/rn7QSnnThGZKU/Xx0PsTcksCzRzv6kE1l1FN3W+2lev+CzshULLoDTndVVDOQcl4mk= C93BE1AE
5zz8
反爬机制
cookie
动态变化的请求参数
验证码