zoukankan
html css js c++ java
爬虫基础总结4
正则表达式
P = re.compile(regex, re.S)
P.findall("str")
P.sub("_", "str")
re.findall(regex, "str")
re.sub(regex,"_", str)
原始字符串r 在正则中忽略转义带来的影响
re.findall("<p>(.*?)</p>", sre)
xpath
获取文本
A/text()
A//text()
A[text()="下一页"]
@符号
获取属性 A/@href
根据属性定位 A[@class='a']
//
放在xpath最前面表示选择当前页面html页面任意元素
A//text()获取A下的任意元素的文本
//a[1] 第一个
//a[last()] 最后一个
//a[position()<3] 取前两个
//a[1]|//a[3] |表示或的意思
lxml
1.from lxml import stree
2.element=stree.HTML(bytes/str)
返回element对象,具有xpath
3.etree.tostring(element) 返回element中的字符串格式
element.xpath
1.先分组
2.分组提取数据
li.xpath("./a/text()")
li.xpath("./a/@href")
查看全文
相关阅读:
使用eclipse创建Spring Boot项目
Oracle 一个表的数据update到另一个表
C3P0连接池属性配置注释
Druid连接池
Oracle 五笔码函数
Oracle 拼音码函数
JAVA JDK环境变量配置
一 测试基础之测试方法
SonarQube+Jenkins,搭建持续交付平台
swagger集成到springBoot 项目中
原文地址:https://www.cnblogs.com/wsilj/p/12736407.html
最新文章
AspNet MVC中各种上下文理解
Net中JSON序列化和反序列化处理(日期时间特殊处理)
Nhibernate基础使用教程以及简易封装
C# 通过SerialPort简单调用串口
WPF oxyPlot 使用总结
SignalR初体验
AspNet MVC 缓存
js 函数
url 处理
Jquery
热门文章
easy ui 框架
sql.date and util.Date
JSON 的应用
redis 命令
springmvc 学习笔记_1
html+css 技巧
kafka java实例
C#动态调用WebService
java开发代码性能优化总结
页面报错状态码
Copyright © 2011-2022 走看看