【Day3】项目实战。百度针对Xpath的反爬策略和解决方式

import lxml.etree as le
with open('edu.html','r',encoding='utf-8') as f:
    html = f.read()
    html_x = le.HTML(html)
    a_x_s = html_x.xpath("//div[contains(@class,'threadlist_title pull_left j_th_tit')]/a/text()")
    for a in a_x_s:
        print(a)

如果HTML被注释，Xpath会不起作用，此时应该使用正则表达式

import re
with open('edu.html','r',encoding='utf-8') as f:
    html = re.sub('
','',f.read())
    a_pattern = '<div class="threadlist_title pull_left j_th_tit ">.*?<a.*?>(.*?)</a>'
    a_s = re.findall(a_pattern,html)
    for a in a_s:
        print(a)

查看全文

相关阅读:
spring的学习____9.spring aop的实现方式 2 ：通过自定义类实现Aop
spring的学习____8 spring_AoP的实现方式一：使用spring API实现
 Spring 的学习报错_____2.空指针异常 java.lang.NullPointerException
Spring学习的报错____1.Type interface com.xbf.dao.UserDao is not known to the MapperRegistry.
spring的学习7_____AoP（面向切面）概述
 Spring 的学习6_______静态代理和动态代理（AOP的底层实现原理）
Spring的学习____5.Bean的作用域
 Spring的学习____3.spring配置文件的解析
 第四课--程序的控制结构
 第三课--文本进度条实现

原文地址：https://www.cnblogs.com/zsczsc/p/11897088.html