zoukankan html css js c++ java

python网络爬虫——xpath
5种反爬机制

robots.txt：反爬机制，防君子不防小人

UA检测：UA伪装

数据加密

图片懒加载

代理ip

requests模块爬取流程：

指定url

发起请求

获取页面数据

数据解析

持久化存储

bs4解析：

环境安装：bs4、lxml解析器

实例化bs对象，将页面源码数据加载到该对象中

定位标签

find('a',class_='xxx')

findall()

select()

大于号，一个层级

空格，多个层级

将标签中的文本内容获取

string 返回标签下文本内容

text 返回标签下所有字标签问本内容

get_text()

获取属性

a['href']
xpath使用（【重点】xpath表达式）

环境安装：pip install lxml

解析原理：

获取页面源码数据

实例化一个etree的对象，并且将页码源数据加载到该对象中

调用该对象的xpath方法进行制定标签的定位

【注意】xpath函数必须结合着xpath表达式进行标签定位和内容捕获

将html文档或xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点

本地文件：tree = etree.parse(文件名）
tree.xpath('xpath表达式')

网络数据：tree = etree.HTML(网页内容字符串)
tree.xpath('xpath表达式')
xpath表达式

/ 层级之间的关系

/ 相当于bs4中select中的>

// 相当于bs4-select中的空格

举例：

/html/head/title 从根目录开始找，html下的 head标签下的 title标签

//head/title 先找到当前源码中所有的head标签，在找到head标签下的title标签

//title 找到所有title标签

属性定位：

//div[@class='song'] 定位所有class属性值为song的div标签；[]中必须跟@符号,属性名称前必须有@【语法结构】,返回的是列表

层级&索引定位：

//div[@class='tang']/ul/li[2]/a 定位所有class属性值为tong的div直系标签 ul标签下的第二个li标签下的直系字标签 a标签；

逻辑运算：

//a[@href='' and @class='du'] 定位所有href属性值为空且class属性值为du的所有a标签

模糊匹配：

//div[contain(@class,'ng')] 定位class属性值包含ng的所有div标签

//div[start-with(@class,'ta)] 定位class属性值以ta开头的所有div标签

取文本

表示获取某个标签下的文本内容

表示获取某个标签下的文本内容和所有子标签下的文本内容

//div[@class='song']/p[1]/text() 获取class属性值为song的所有div标签下的第一个p字标签包含的文本

//div[@class='tang]//text() 获取class属性值为tang的所有div标签下的所有文本，及其字标签下的所有文本，返回的是列表，列表里有多个列表元素

取属性

//div[@class='tang']//li[2]/a/@href 返回属性对应的属性值
案例：获取58二手房相关房源信息
import requests from lxml import etree url = 'https://bj.58.com/beijingzhoubian/ershoufang/?PGTID=0d30000c-0000-1175-8e33-a6e941f8aff5&ClickID=1' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } # 获取源码数据 page_text = requests.get(url=url,headers=headers).text # 实例化etree对象 tree = etree.HTML(page_text) # 调用xpath方法,后去li标签列表 li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') fp = open('58.csv','w',encoding='utf-8') #遍历列表 for li in li_list: # .开头的意思：进行局部页面解析;./开头表示从li标签开始解析 title = li.xpath('./div[2]/h2/a/text()')[0] price = li.xpath('./div[3]//text()') #将价格的三个列表拼接为字符串 price = ''.join(price) fp.write(title+':'+price+' ') fp.close() print('over')
案例：获取图片
import requests from lxml import etree import os import urllib url = 'http://pic.netbian.com/4kmeinv/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } response = requests.get(url=url,headers=headers) #response.encoding = 'utf-8' if not os.path.exists('./imgs'): os.mkdir('./imgs') page_text = response.text tree = etree.HTML(page_text) li_list = tree.xpath('//dic[@class="slist"]/ul/li') # //dic[@class="slist"]//li for li in li_list: img_name = li.xpath('./a/b/text()')[0] # 处理中文乱码 img_name = img_name.encode('iso-8859-1').decode('gbk') img_url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0] img_path = './imgs/' + img_name + '.jpg' urllib.request.urlretrieve(url=img_url,filename=img_path) print(img_path,'下载成功')
案例：煎蛋网中图片数据：http://jandan.net/ooxx

第三种反爬机制：数据加密
import requests from lxml import etree import base64 import urllib headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://jandan.net/ooxx' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) img_hash_list = tree.xpath('//span[@class="img-hash"]/text()') for img_hash in img_hash_list: img_url = 'http:' + base64.b64decode(img_hash).decode() img_name = img_url.split('/')[-1] urllib.request.urlretrieve(url=img_url,filename=img_name)
爬取站长素材中的简历模板
import requests from lxml import etree import random headers = { 'Connection':'close',# 当请求成功后，马上断开该次请求（及时释放请求池中的资源）） 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://sc.chinaz.com/jianli/free-%d.html' for page in range(1,4): if page == 1: new_url = 'http://sc.chinaz.com/jianli/free.html' else: new_url = format(url%page) response = requests.get(url=new_url,headers=headers) response.encoding = 'utf-8' page_text = response.text tree = etree.HTML(page_text) div_list = tree.xpath('//div[@id="container"]/div') for div in div_list: detail_url = div.xpath('./a/@href')[0] name = div.xpath('./a/img/@alt')[0] detail_page = requests.get(url=detail_url,headers=headers).text tree = etree.HTML(detail_page) download_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') download_url = random.choice(download_list) data = requests.get(url=download_url,headers=headers).content file_name = name + '.rar' with open(file_name,'wb') as fp: fp.write(data) print(file_name,'下载成功')
【重点】

问题：往往在进行大量请求发送的时候，经常会报出这样一个错误：HTTPConnectionPool（host:XX）Max retries exceeded with url.

原因：

1.每次数据传输前客户端要和服务器简历TCP连接，为节省传输消耗，默认为keep-alive,即连接一次，传输多次，然而如果连接迟迟不断开的话，连接池满后则无法产生新的连接对象，导致请求无法发送。

2.ip被封

3.请求频率太频繁

解决：如果下列解决未生效，则可以尝试再次执行程序（因为第一次运行Connection可能不生效）

1.设置请求头中的Connection的值为close，表示每次请求成功后断开连接

2.更换请求ip（使用非常简单，之间直接在get/post请求中加个参数）

3.每次请求之间使用sleep进行等待间隔【不推荐，影响效率】
解析所有城市名称 https://www.aqistudy.cn/historydata/
import requests from lxml import etree import random headers = { 'Connection':'close',# 当请求成功后，马上断开该次请求（及时释放请求池中的资源）） 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'https://www.aqistudy.cn/historydata/' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/ul/div[2]/li') for li in li_list: city_name = li.xpath('./a/text()')[0] print(city_name)
反爬机制：图片懒加载

图片懒加载概念：

图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。

网站一般如何实现图片懒加载技术呢？

在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

站长素材案例后续分析：通过细致观察页面的结构后发现，网页中图片的链接是存储在了src2这个伪属性中
设置请求的代理IP
使用方法：

直接在get/post请求中加入proxies={'类型':'ip'}

代理ip的类型必须和请求url的协议头保持一致

提供代理ip的网站：

www.goubanjia.com

快代理

西祠代理

每种代理ip分两种类型：http/https

代理池 [dic1,dic2,dic3...] proxies=
import requests url = 'https://www.baidu.com/s?wd=ip' page_text = requests.get(url=url,headers=headers,proxies={'https':'36.111.140.6:8080'}).text with open('./ip.html','w',encoding='utf-8') as fp: fp.write(page_text)
查看全文

相关阅读:
date format记录
 python同时遍历两个list
Windbg分析DMP文件
 DNS原理及其解析过程（转）
有关正则表达式的详细内容
 sizeof _countof _tcslen的比较
 关于androidX
UML类图
 springBoot 访问html页面遇到的坑
 hashmap 的实现原理

原文地址：https://www.cnblogs.com/bilx/p/11553081.html

python网络爬虫——xpath

xpath使用（【重点】xpath表达式）

xpath表达式

案例：获取58二手房相关房源信息

案例：获取图片

案例：煎蛋网中图片数据：http://jandan.net/ooxx

爬取站长素材中的简历模板

解析所有城市名称 https://www.aqistudy.cn/historydata/

反爬机制：图片懒加载

设置请求的代理IP