zoukankan      html  css  js  c++  java
  • python网络爬虫——xpath

    • 5种反爬机制
      • robots.txt:反爬机制,防君子不防小人
      • UA检测:UA伪装
      • 数据加密
      • 图片懒加载
      • 代理ip
    • requests模块爬取流程:
      • 指定url
      • 发起请求
      • 获取页面数据
      • 数据解析
      • 持久化存储
    • bs4解析:
      • 环境安装:bs4、lxml解析器
      • 实例化bs对象,将页面源码数据加载到该对象中
      • 定位标签
        • find('a',class_='xxx')
        • findall()
        • select()
          • 大于号,一个层级
          • 空格,多个层级
      • 将标签中的文本内容获取
        • string 返回标签下文本内容
        • text 返回标签下所有字标签问本内容
        • get_text()
        • 获取属性
          • a['href']

    xpath使用(【重点】xpath表达式)

    • 环境安装:pip install lxml
    • 解析原理:
      • 获取页面源码数据
      • 实例化一个etree的对象,并且将页码源数据加载到该对象中
      • 调用该对象的xpath方法进行制定标签的定位
      • 【注意】xpath函数必须结合着xpath表达式进行标签定位和内容捕获
    • 将html文档或xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点
      • 本地文件:tree = etree.parse(文件名)
           tree.xpath('xpath表达式')
      • 网络数据:tree = etree.HTML(网页内容字符串)
           tree.xpath('xpath表达式')

    xpath表达式

    • / 层级之间的关系
      • / 相当于bs4中select中的>
      • // 相当于bs4-select中的空格
    • 举例:
      • /html/head/title 从根目录开始找,html下的 head标签下的 title标签
      • //head/title 先找到当前源码中所有的head标签,在找到head标签下的title标签
      • //title 找到所有title标签
      • 属性定位:
        • //div[@class='song'] 定位所有class属性值为song的div标签;[]中必须跟@符号,属性名称前必须有@【语法结构】,返回的是列表
      • 层级&索引定位:
        • //div[@class='tang']/ul/li[2]/a 定位所有class属性值为tong的div直系标签 ul标签下的 第二个li标签下的直系字标签 a标签;
      • 逻辑运算:
        • //a[@href='' and @class='du'] 定位所有href属性值为空且class属性值为du的所有a标签
      • 模糊匹配:
        • //div[contain(@class,'ng')] 定位class属性值包含ng的所有div标签
        • //div[start-with(@class,'ta)] 定位class属性值以ta开头的所有div标签
      • 取文本
        • 表示获取某个标签下的文本内容
        • 表示获取某个标签下的文本内容和所有子标签下的文本内容
        • //div[@class='song']/p[1]/text() 获取class属性值为song的所有div标签下的 第一个p字标签 包含的文本
        • //div[@class='tang]//text() 获取class属性值为tang的所有div标签下的 所有文本,及其字标签下的所有文本,返回的是列表,列表里有多个列表元素
      • 取属性
        • //div[@class='tang']//li[2]/a/@href 返回属性对应的属性值

    案例:获取58二手房相关房源信息

    import requests
    from lxml import etree
    
    url = 'https://bj.58.com/beijingzhoubian/ershoufang/?PGTID=0d30000c-0000-1175-8e33-a6e941f8aff5&ClickID=1'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'
    }
    # 获取源码数据
    page_text = requests.get(url=url,headers=headers).text
    # 实例化etree对象
    tree = etree.HTML(page_text)
    # 调用xpath方法,后去li标签列表
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    fp = open('58.csv','w',encoding='utf-8')
    #遍历列表
    for li in li_list:
        # .开头的意思:进行局部页面解析;./开头表示从li标签开始解析
        title = li.xpath('./div[2]/h2/a/text()')[0]
        price = li.xpath('./div[3]//text()')
        #将价格的三个列表拼接为字符串
        price = ''.join(price)
        fp.write(title+':'+price+'
    ')
    fp.close()
    print('over')

    案例:获取图片

    import requests
    from lxml import etree
    import os
    import urllib
    
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'
    }
    response = requests.get(url=url,headers=headers)
    #response.encoding = 'utf-8'
    if not os.path.exists('./imgs'):
        os.mkdir('./imgs')
    page_text = response.text
    
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//dic[@class="slist"]/ul/li') # //dic[@class="slist"]//li
    for li in li_list:
        img_name = li.xpath('./a/b/text()')[0]
        # 处理中文乱码
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        img_url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_path = './imgs/' + img_name + '.jpg'
        urllib.request.urlretrieve(url=img_url,filename=img_path)
        print(img_path,'下载成功')

    案例:煎蛋网中图片数据:http://jandan.net/ooxx

    • 第三种反爬机制:数据加密
    import requests
    from lxml import etree
    import base64
    import urllib
    
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'
    }
    url = 'http://jandan.net/ooxx'
    page_text = requests.get(url=url,headers=headers).text
    
    tree = etree.HTML(page_text)
    img_hash_list = tree.xpath('//span[@class="img-hash"]/text()')
    for img_hash in img_hash_list:
        img_url = 'http:' + base64.b64decode(img_hash).decode()
        img_name = img_url.split('/')[-1]
        urllib.request.urlretrieve(url=img_url,filename=img_name)

    爬取站长素材中的简历模板

    import requests
    from lxml import etree
    import random
    
    headers = {
        'Connection':'close',# 当请求成功后,马上断开该次请求(及时释放请求池中的资源))
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'
    }
    url = 'http://sc.chinaz.com/jianli/free-%d.html'
    for page in range(1,4):
        if page == 1:
            new_url = 'http://sc.chinaz.com/jianli/free.html'
        else:
            new_url = format(url%page)
        response = requests.get(url=new_url,headers=headers)
        response.encoding = 'utf-8'
        page_text = response.text
    
        tree = etree.HTML(page_text)
        div_list = tree.xpath('//div[@id="container"]/div')
        for div in div_list:
            detail_url = div.xpath('./a/@href')[0]
            name = div.xpath('./a/img/@alt')[0]
    
            detail_page = requests.get(url=detail_url,headers=headers).text
            tree = etree.HTML(detail_page)
            download_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')
            download_url = random.choice(download_list)
            data = requests.get(url=download_url,headers=headers).content
            file_name = name + '.rar'
            with open(file_name,'wb') as fp:
                fp.write(data)
                print(file_name,'下载成功')

    【重点】

    • 问题:往往在进行大量请求发送的时候,经常会报出这样一个错误:HTTPConnectionPool(host:XX)Max retries exceeded with url.
    • 原因:
      • 1.每次数据传输前客户端要和服务器简历TCP连接,为节省传输消耗,默认为keep-alive,即连接一次,传输多次,然而如果连接迟迟不断开的话,连接池满后则无法产生新的连接对象,导致请求无法发送。
      • 2.ip被封
      • 3.请求频率太频繁
    • 解决:如果下列解决未生效,则可以尝试再次执行程序(因为第一次运行Connection可能不生效)
      • 1.设置请求头中的Connection的值为close,表示每次请求成功后断开连接
      • 2.更换请求ip(使用非常简单,之间直接在get/post请求中加个参数)
      • 3.每次请求之间使用sleep进行等待间隔【不推荐,影响效率】

    解析所有城市名称 https://www.aqistudy.cn/historydata/

    import requests
    from lxml import etree
    import random
    
    headers = {
        'Connection':'close',# 当请求成功后,马上断开该次请求(及时释放请求池中的资源))
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    page_text = requests.get(url=url,headers=headers).text
    
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/ul/div[2]/li')
    for li in li_list:
        city_name = li.xpath('./a/text()')[0]
        print(city_name)

    反爬机制:图片懒加载

    • 图片懒加载概念:

      • 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称为“图片懒加载”。

    • 网站一般如何实现图片懒加载技术呢?

      • 在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。

    • 站长素材案例后续分析:通过细致观察页面的结构后发现,网页中图片的链接是存储在了src2这个伪属性中

    设置请求的代理IP

    • 使用方法:
      • 直接在get/post请求中加入proxies={'类型':'ip'}
      • 代理ip的类型必须和请求url的协议头保持一致
    • 提供代理ip的网站:
      • www.goubanjia.com
      • 快代理
      • 西祠代理
    • 每种代理ip分两种类型:http/https
    • 代理池 [dic1,dic2,dic3...] proxies=
    import requests
    
    url = 'https://www.baidu.com/s?wd=ip'
    
    page_text = requests.get(url=url,headers=headers,proxies={'https':'36.111.140.6:8080'}).text
    
    with open('./ip.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
  • 相关阅读:
    数码管按键加减一
    单片机软件proteus的汉化步骤
    不同位数数字取个十百千位数字的代码
    直升机基础知识
    数码管应用digital_pile
    proteus中的常用文件
    蜂鸣器类代码
    延时函数sys
    求数组最大子数组
    Python数据结构与算法
  • 原文地址:https://www.cnblogs.com/bilx/p/11553081.html
Copyright © 2011-2022 走看看