注:抓包工具:青花瓷
1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port
a. Fiddler设置
打开Fiddler软件,打开工具的设置。(Fiddler软件菜单栏:Tools->Options)
在HTTPS中设置如下:
在Connections中设置如下,这里使用默认8888端口,当然也可以自己更改,但是注意不要与已经使用的端口冲突:
Allow remote computers to connect:允许别的机器把请求发送到fiddler上来
b. 安全证书下载
在电脑浏览器中输入地址:http://localhost:8888/,点击FiddlerRoot certificate,下载安全证书:
也可以
c. 安全证书安装(证书一定要安装且信任)
证书是需要在手机上进行安装的,这样在电脑Fiddler软件抓包的时候,手机使用电脑的网卡上网才不会报错。
Android手机安装:把证书放入手机的内置或外置存储卡上,然后通过手机的"系统安全-》从存储设备安装"菜单安装证书。
然后找到拷贝的FiddlerRoot.cer
进行安装即可。安装好之后,可以在信任的凭证中找到我们已经安装好的安全证书。
苹果手机安装:
- 保证手机网络和fiddler所在机器网络是同一个网段下的
- 在safari中访问http://fiddle机器ip:fiddler端口,进行证书下载。然后进行安装证书操作。
- 在手机中的设置-》通用-》关于本机-》证书信任设置-》开启fiddler证书信任
d. 局域网设置
想要使用Fiddler进行手机抓包,首先要确保手机和电脑的网络在一个内网中,可以使用让电脑和手机都连接同一个路由器。当然,也可以让电脑开放WIFI热点,手机连入。这里,我使用的方法是,让手机和电脑同时连入一个路由器中。最后,让手机使用电脑的代理IP进行上网。 在手机上,点击连接的WIFI进行网络修改,添加代理。进行手动设置,ip和端口号都是fiddler机器的ip和fiddler上设置的端口号。
e. Fiddler手机抓包测试
上述步骤都设置完成之后,用手机浏览器打开百度首页,我们就可以顺利抓包了
scrapy框架
(1)环境安装
linux: pip install scrapy windows: 有whell才能下载下载twisted框架: pips install whell 下载twisted框架(处理并发相关操作) : http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 进入下载目录,执行: pip3 install Twisted-17.1.0-cp35-cp35m-win_amd64.whl pip3 install pywin32 pip3 install scrapy
(2)新建一个项目
创建一个工程
scrapy startproject 工程名称
此时生成的工程目录
创建一个爬虫文件
注:要保证配置文件创建在当前工程目录下
cd firstblood #在工程目录下创建爬虫文件 会在apiders中出现 scrapy genspider first www.xxx.com #first代表爬虫文件的名称,www.xxx.com代表起始url
在first.py爬虫文件中
执行爬虫文件
scrapy crawl first
scrapy crawl first --nolog (不打印日志)
robots反爬机制的处理
被robots反爬机制拦截的反应
处理方式(在配置文件中修改此条为False)
User-Agent伪装反爬机制的处理
处理方式(在配置文件中修改此条)
数据解析
xpath表达式的使用以及获取Selector对象中的date中的值的两种方式
class FirstSpider(scrapy.Spider): name = 'first' # allowed_domains = ['www.xxx.com'] #在该文件中,只能爬取这个域名之下的url,通常注释掉这一句 start_urls = ['https://www.qiushibaike.com/text/'] def parse(self, response): div_list=response.xpath('//div[@id="content-left"]/div') for div in div_list: #得到的div是Selector类型的 title=div.xpath('./div/a[2]/h2/text()')[0].extract() #将Selector对象中的date中的值 title = div.xpath('./div/a[2]/h2/text()').extract_first() #直接得到列表中第0个元素 print(title)
持久化存储
1.基于终端指令的持久化存储(只能将path的返回值存到本地的文本中)
可以通过将终端指令的形式将parse方法的返回值中存储的数据进行本地磁盘的持久化存储
class FirstSpider(scrapy.Spider): name = 'first' start_urls = ['https://www.qiushibaike.com/text/'] def parse(self, response) div_list=response.xpath('//div[@id="content-left"]/div') all_data=[] dic={} for div in div_list: #得到的div是Selector类型的 content=div.xpath('./a/div/span/text()').extract_first()