zoukankan
html css js c++ java
爬虫基础总结4
正则表达式
P = re.compile(regex, re.S)
P.findall("str")
P.sub("_", "str")
re.findall(regex, "str")
re.sub(regex,"_", str)
原始字符串r 在正则中忽略转义带来的影响
re.findall("<p>(.*?)</p>", sre)
xpath
获取文本
A/text()
A//text()
A[text()="下一页"]
@符号
获取属性 A/@href
根据属性定位 A[@class='a']
//
放在xpath最前面表示选择当前页面html页面任意元素
A//text()获取A下的任意元素的文本
//a[1] 第一个
//a[last()] 最后一个
//a[position()<3] 取前两个
//a[1]|//a[3] |表示或的意思
lxml
1.from lxml import stree
2.element=stree.HTML(bytes/str)
返回element对象,具有xpath
3.etree.tostring(element) 返回element中的字符串格式
element.xpath
1.先分组
2.分组提取数据
li.xpath("./a/text()")
li.xpath("./a/@href")
查看全文
相关阅读:
ubuntu18.04下eclipse修改maven源为阿里源
Java中使用队列Queue
Redis学习笔记——Redis的基本操作
ubuntu安装redis
Spring Boot使用监听器Listener
Spring Boot中在程序中获得application.properties中的值
Spring Boot使用过滤器Filter
基于GTID的主从架构异常处理流程
goroutine与调度器
使用synergyc共享键鼠
原文地址:https://www.cnblogs.com/wsilj/p/12736407.html
最新文章
C# WinForm:无法访问已释放的对象
winform程序关闭界面时弹出提示框
WinForm 生命周期, WinForm 事件执行顺序
让 Winform 窗口悬浮的简单方式
[Socket网络编程]一个封锁操作被对 WSACancelBlockingCall 的调用中断。
C#知识点总结系列:3、C#中Delegate和Event
[转]MathJax与LaTex公式简介
Java使用PegDown将markdown文件转成html格式
MySQL中表的列结构的修改操作
MySQL中创建存储过程示例
热门文章
Win10使用Tex Live和VS Code和Latex Workshop插件编写Latex文档(未完成版本)
MySQL创建及删除临时表
Java使用JDBC连接数据库逐条插入数据、批量插入数据、以及通过SQL语句批量导入数据的效率对比
MySQL复制表结构
Linux使用shell解压tar.Z格式文件
Win10使用mysqldump导出csv文件及期间遇到的问题
MySQL中使用replace into语句批量更新表数据
MySQL导入utf8编码的CSV文件
Linux下通过shell进MySQL执行SQL或导入脚本
Spring Boot集成Redis缓存
Copyright © 2011-2022 走看看