zoukankan
html css js c++ java
爬虫基础总结4
正则表达式
P = re.compile(regex, re.S)
P.findall("str")
P.sub("_", "str")
re.findall(regex, "str")
re.sub(regex,"_", str)
原始字符串r 在正则中忽略转义带来的影响
re.findall("<p>(.*?)</p>", sre)
xpath
获取文本
A/text()
A//text()
A[text()="下一页"]
@符号
获取属性 A/@href
根据属性定位 A[@class='a']
//
放在xpath最前面表示选择当前页面html页面任意元素
A//text()获取A下的任意元素的文本
//a[1] 第一个
//a[last()] 最后一个
//a[position()<3] 取前两个
//a[1]|//a[3] |表示或的意思
lxml
1.from lxml import stree
2.element=stree.HTML(bytes/str)
返回element对象,具有xpath
3.etree.tostring(element) 返回element中的字符串格式
element.xpath
1.先分组
2.分组提取数据
li.xpath("./a/text()")
li.xpath("./a/@href")
查看全文
相关阅读:
物理材质
铰链joints
unity 刚体
扩展方法
转换操作符方法(非基元类型转换)
向方法传递可变数量的参数
参数:可选参数和命名参数
实例构造器与值类型和引用类型、类型构造器
成员的可访问性,友元程序集,静态类
如何删除github上项目的文件
原文地址:https://www.cnblogs.com/wsilj/p/12736407.html
最新文章
javawweb
迅雷下载宝刷机
Arch 安装手记 (-)
Kali_linux2.0 metasploit 连接postgresql
手工注入棒子站
CI默认控制器
sql注入->提权->渗透
mysql-client ERROR 2002解决方法
rdesktop 参数说明
linux截图快捷键
热门文章
Blazor WebAssembly
工作流项目:效果演示、操作流程文档
Dapper
Blog.Core介绍
MySql常见问题
工作流项目:介绍,应用场景,工作流体系设计,用户体系设计
电商秒杀系统:服务器集群、分布式缓存redis、lua实现单品限流和限制重复购买、抢购方法幂、抢购失败回滚、雪花算法、IP限流防刷
发布和部署
Span<T>结构使用和源码
碰撞器Colider 触发器
Copyright © 2011-2022 走看看